这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试-科技今日热点

四大VLM，竟都在盲人摸象？

让现在最火的SOTA模型们（GPT-4o，Gemini-1.5，Sonnet-3，Sonnet-3.5）数一数两条线有几个交点，他们表现会比人类好吗？

答案很可能是否定的。

自GPT-4V推出以来，视觉语言模型(VLMs)让大模型的智能程度朝着我们想象中的人工智能水平跃升了一大步。

VLMs既能看懂画面，又能用语言来描述看到的东西，并基于这些理解来执行复杂的任务。比如，给VLM模型发去一张餐桌的图片，再发一张菜单的图片，它就能从两张图中分别提取啤酒瓶的数量和菜单上的单价，算出这顿饭买啤酒花了多少钱。

VLMs的进步如此之快，以至于让模型找出这张图中有没有一些不合常理的「抽象元素」，例如，让模型鉴定图中有没有一个人正在飞驰的出租车上熨衣服，成为了一种通行的测评方式。

然而，目前的基准测试集并不能很好地评估VLMs的视觉能力。以MMMU为例，其中有42.9%的问题不需要看图，就能解决，也就是说，许多答案可以仅通过文本问题和选项推断出来。其次，现在VLM展示出的能力，很大程度上是「背记」大规模互联网数据的结果。这导致了VLMs在测试集中的得分很高，但这并不代表这个判断成立：VLM可以像人类一样感知图像吗？

为了得到这个问题的答案，来自奥本大学和阿尔伯塔大学的研究者决定给VLMs「测测视力」。从验光师的「视力测试」处得到了启发，他们让：GPT-4o、Gemini-1.5Pro、Claude-3Sonnet和Claude-3.5Sonnet这四款顶级VLM做了一套「视力测试题」。

论文标题：Visionlanguagemodelsareblind

论文链接：https://arxiv.org/pdf/2407.06581

项目链接：https://vlmsareblind.github.io/

这套题很简单，例如，数两条线有几个交点，识别是哪个字母被红圈标出来了，几乎不需要任何世界知识。测试结果令人震惊，VLMs实际上都「近视」，图片的细节在它们看来实际是模糊的。

VLM瞎不瞎？七大任务，一测便知

为了避免VLMs从互联网数据集中直接「抄答案」，论文作者设计了一套全新的「视力测试」。论文作者选择让VLMs判断空间中几何图形之间的关系，例如两个图形是否相交。因为这些图案在白色画布上的空间信息，通常无法用自然语言描述。

人类在处理这些信息时，将通过「视觉大脑」感知。但对于VLMs来说，它们所依靠的是在模型的初期阶段将图像特征和文本特征结合起来，即将视觉编码器集成到大型语言模型中，这本质上是一个没有眼睛的知识大脑。

初步实验表明，VLMs在面对人类视力测试，比如我们每个人都测过的颠来倒去的「E」视力表等等，它们的表现已经非常惊艳。

测试与结果

第一关：数一数线条之间有几个交点？

论文作者在白色背景上创建了150幅含有两条线段的图像。这些线段的x坐标固定并等间距分布，而y坐标则是随机生成的。两条线段之间的交点只有0个、1个、2个三种情况。

如图5所示，在两版提示词和三版线段粗细不同的测试中，所有VLMs在这个简单任务上表现都不佳。

拥有最佳准确率的Sonnet-3.5也仅为77.33%（见表1）。

更具体地说，当两条线之间的距离缩小时，VLMs的表现往往更差（见下方图6）。由于每个线图由三个关键点组成，两条线之间的距离计算为三个对应点对的平均距离。

该结果与VLMs在ChartQA上的高准确率形成鲜明对比，这表明VLMs能够识别线图的整体趋势，但无法「放大」以看到类似于「哪些线条相交了」这种细节。

第二关：判断两个圆之间的位置关系

如图所示，论文作者在一个给定大小的画布上，随机生成两个大小一致的圆。两个圆的位置关系只有三种情况：相交、相切和相离。

令人惊讶的是，在这个对人类来说直观可见，一眼就能看出答案的的任务中，没有一个VLM能够完美地给出答案（见图7）。

准确率最佳（92.78%）的模型是Gemini-1.5（见表2）。

在实验中，有一种情况频繁出现：当两个圆靠得很近时，VLMs往往表现不佳，但会做出有根据的推测。如下图所示，Sonnet-3.5通常保守地回答「否」。

如图8所示，即使当两个圆之间的距离相差得很远，有一个半径（d=0.5）这么宽时，准确率最差的GPT-4o也做不到100%准确。

也就是说，VLM的视觉似乎不够清晰，无法看到两个圆之间的细小间隙或交点。

第三关：有几个字母被红圈圈起来了？

由于一个单词间字母之间的间隔很小，论文作者们假设：如果VLMs「近视」，那么它们是没办法识别出被红圈圈出的字母的。

因此，他们选择了「Acknowledgement」、「Subdermatoglyphic」和「tHyUiKaRbNqWeOpXcZvM」这样的字符串。随机生成红圈圈出字符串中的某个字母，作为测试。

测试结果说明，被测模型在这一关的表现都很差（见图9和表3）。

例如，当字母被红圈轻微遮挡时，视觉语言模型往往会出错。它们经常混淆红圈旁边的字母。有时模型会产生幻觉，例如，尽管能够准确拼写单词，但会给单词中添加（例如，「9」，「n」，「©」）等乱码。

除了GPT-4o之外，所有模型在单词上的表现都略好于随机字符串，这表明知道单词的拼写可能有助于视觉语言模型做出判断，从而略微提高准确性。

Gemini-1.5和Sonnet-3.5是排名前二的模型，准确率分别为92.81%和89.22%，并且比GPT-4o和Sonnet-3的表现近乎高出近20%。

第四关和第五关：重叠的图形有几个？有几个「套娃」正方形？

假设VLMs「近视」，那么它们可能无法清晰地看到类似于「奥运五环」这样的图案，每两个圆圈之间的交叉点。为此，论文作者随机生成了60组类似于「奥运五环」的图案，让VLMs数一数它们重叠的图形有几个。他们也生成了五边形版的「奥运五环」进一步测试。

由于VLMs计算相交圆圈的数量时表现不佳，论文作者进一步测试了当图案的边缘不相交，每个形状完全嵌套在另一个形状内部的情况。他们用2-5正方形生成了「套娃」式的图案，并让VLMs计算图像中的正方形总数。

从下表中鲜红的叉号不难看出，这两关对于VLMs来说，也是难以逾越的障碍。

在嵌套正方形的测试中，各个模型的准确率差异很大：GPT-4o（准确率48.33%）和Sonnet-3（准确率55.00%）这两种模型至少比Gemini-1.5（准确率80.00%）和Sonnet-3.5（准确率87.50%）低30个百分点。

这种差距在模型计数重叠的圆形和五边形时则会更大，不过Sonnet-3.5的表现要比其他模型好上几倍。如下表所示，当图像为五边形时，Sonnet-3.5以75.83%的准确率远超Gemini-1.5的9.16%。

令人惊讶的是，被测的四个模型在数5个圆环时都达到了100%的准确率，但仅仅额外添加一个圆环就足以使准确率大幅下降到接近零的水平。

然而，在计算五边形时，所有VLM（除Sonnet-3.5外）即使在计算5个五边形时也表现不佳。总体来看，计算6到9个形状（包括圆和五边形）对所有模型来说都是困难的。

这表明，VLM存在偏见，它们更倾向于输出著名的「奥运五环」作为结果。例如，无论实际圆的数量是多少，Gemini-1.5都会在98.95%的试验里将结果预测为「5」（见表5）。对于其他模型，这种圆环预测错误出现的频率也远高于五边形的情况。

除了数量外，VLM在形状的颜色上也有不同的「偏好」。

GPT-4o在彩色形状上的表现优于纯黑的形状，而Sonnet-3.5随着图像尺寸的增加预测的表现越来越好。然而，当研究人员改变颜色和图像分辨率时，其他模型的准确率仅略有变化。

值得注意的是，在计算嵌套正方形的任务中，即使正方形的数量只有2-3个，GPT-4o和Sonnet-3依然很难计算。当正方形的数量增加到四个和五个时，所有模型都远未达到100%的准确率。这表明，即使形状的边缘不相交，VLM也很难准确地提取目标形状。

第六关：数一数表格有几行？有几列？

虽然VLMs在重叠或嵌套图形时遇到了困难，但它们眼中的平铺图案又是怎样的呢？在基础测试集中，特别是包含许多含有表格任务的DocVQA，被测模型的准确率都≥90%。论文作者随机生成了444个行数列数各异的表格，让VLMs数一数表格有几行？有几列？

结果显示，虽然在基础数据集中拿到了高分，但如下图所示，VLM在计数空表格中的行和列也表现不佳。

具体来说，它们通常会存在1-2格的偏差。如下图所示，GPT-4o把4×5的网格认成了4×4，Gemini-1.5则认成了5×5。

这表明，虽然VLMs可以从表格中提取重要内容以回答DocVQA中的表格相关问题，但无法清晰地逐格识别表格。

这可能是因为文档中的表格大多是非空的，而VLM不习惯空表格。有趣的是，在研究人员通过尝试在每个单元格中添加一个单词来简化任务后，观察到所有VLM的准确率显著提高，例如，GPT-4o从26.13%提高到了53.03%（见表6）。然而，这种情况中，被测模型的表现依旧不完美。如图15a和b所示，表现最好的模型（Sonnet-3.5）在包含文本的网格中表现为88.68%，而在空网格中表现为59.84%。

而大多数模型（Gemini-1.5、Sonnet-3和Sonnet-3.5）在计算列数方面的表现始终优于计算行数（见图15c和d）。

第七关：从出发点到目的地，有几条地铁直达线路？

这项测试检测的是VLMs跟随路径的能力，这对于模型解读地图、图表以及能否理解用户在输入的图片中添加的箭头等标注至关重要。为此，论文作者随机生成了180幅地铁线路图，每张图有四个固定的站点。他们要求VLMs计算两个站点之间有多少条单色的路径。

测试结果令人震惊，即使把两个站点之间的路径简化到只有一条，所有模型也无法达到100%的准确率。如表7所示，表现最好的模型是Sonnet-3.5，准确率为95%；最差的模型是Sonnet-3，准确率为23.75%。

从下图中不难看出，VLM的预测通常会有1到3条路径的偏差。随着地图复杂度从1条路径增加到3条路径，大多数VLM的表现都变得更差。

面对当今主流VLM在图像识别上表现极差这一「无情事实」，众多网友先是抛开了自己「AI辩护律师」的身份，留下了很多较为悲观的评论。

一位网友表示：「SOTA模型们（GPT-4o，Gemini-1.5Pro，Sonnet-3，Sonnet-3.5）表现得如此糟糕真是令人尴尬，而这些模型居然在宣传时还声称：它们可以理解图像？例如它们可以用于帮助盲人或辅导儿童几何学！

在悲观阵营的另一方，一位网友认为这些糟糕的结果可以通过训练和微调轻松解决。只需生成大约100,000个示例，并用真实数据进行训练，这样问题就解决了。

不过，无论是「AI辩护者」还是「AI悲观者」都默认了一个事实：VLM在图像测试中，仍然存在极难调和的事实性缺陷。

论文作者也收到了对更多这个测试是否科学的质疑。

有网友认为，这篇论文的测试并不能说明VLMs「近视」。首先近视的人看细节并不模糊，「看细节模糊」是远视的症状。其次，看不见细节与不能计算交点的数量是两回事。计算空白网格的行和列的数量的准确率，不会因为分辨率的提高而提高，而提高图像的分辨率对于理解这个任务并没有帮助。此外，提高图像分辨率对于理解这个任务中的重叠线条或交叉点并不会产生显著影响。

实际上，这些视觉语言模型（VLMs）在处理这类任务时所面临的挑战，可能更多地与它们的推理能力和对图像内容的解释方式有关，而不仅仅是视觉分辨率的问题。换句话说，即使图像的每个细节都清晰可见，如果模型缺乏正确的推理逻辑或对视觉信息的深入理解，它们仍然可能无法准确地完成这些任务。因此，这项研究可能需要更深入地探讨VLMs在视觉理解和推理方面的能力，而不仅仅是它们的图像处理能力。

还有网友认为，如果人类的视觉经过卷积处理，那么人类自身也会在判断线条交点的测试中遇到困难。

未经允许不得转载：头条资讯网_今日热点_娱乐才是你关心的时事 » 这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

	秦皇岛市抚宁区：升级养老服务，助老人生活更美好
	iPhone15Pro跌至“谷底价”, 突降2041元, 售价更加亲民了
	华为HarmonyOS NEXT测试版暗黑模式曝光
	买手机最好一步到位, 2024年这5款手机口碑好, 拍照强使用流畅
	南阳市中心医院泌尿外科专家团队走进镇平县妇幼保健院开展学术交流活动
	离大谱！iOS18“真的很你”文案把人看懵，苹果好好学中文吧
	华为Mate70系列“含金量”正在上升：五点原因，望周知
	孟晚舟曾建议不要选和机器竞争的职业，阿尔特曼：AI可不容小觑
	在佛山看“西甲” 好city啊！
	抖音评论区不再是白色! 华为HarmonyOS NEXT测试版暗黑模式曝光

相关推荐

评论