AI集体“失明”?一张蒙娜丽莎错视图暴露大模型致命弱点,最新AI资讯尽在AIGC.bar
type
status
date
slug
summary
tags
category
icon
password
网址
引言:一张图引发的AI“视力危机”
近日,一张由日本艺术家北冈秋吉创作的视觉错位图在科技圈掀起轩然大波。这张看似由彩色条纹构成的图像,只要你稍微眯起眼睛,便能清晰地辨认出达芬奇的传世名作——《蒙娜丽莎》。然而,这个对人类来说轻而易举的感知技巧,却成了当今最顶尖AI大模型们难以逾越的鸿沟,导致了一场几乎“全军覆没”的尴尬局面。网友们戏称:“懂了,AI不会眯眼睛。” 这句玩笑背后,揭示了当前人工智能(AI)在视觉感知领域一个深刻且有趣的致命弱点。
## AI巨头们的集体“翻车”现场
当这张特殊的“蒙娜丽莎”被抛给各大主流AI模型时,它们的表现出奇地一致——困惑与误判。
- ChatGPT (GPT-4o):尽管能够识别出图像中存在一张人脸,并理解这是一张视觉错位图,但在关键的身份识别环节却屡屡出错,甚至在得到“这是一幅名画”的提示后,依然无法锁定正确答案,玩起了“海龟汤”式的猜测游戏。
- Google Gemini:表现更为直接,直接将画中人识别错误,完全没有get到图像的玄机。它的分析停留在对“各种颜色条纹”和“侧脸轮廓”的表面描述上。
- Grok:马斯克的Grok则选择了“放弃”,直言无法辨认,要求提供一张更清晰的图片,显得有些“耿直”。
- 国产大模型:国内的AI选手们,如豆包、文心一言、讯飞星火等,表现也大同小异。它们能分析出图像的艺术风格(如故障艺术),也能识别出模糊的人脸轮廓,但就是无法回答“她是谁”。豆包甚至在深度思考后,将这位长发人物误判为爱因斯坦,令人啼笑皆非。
这一系列的失败案例,清晰地表明,当前大模型(LLM)的视觉能力,在处理需要人类特定感知技巧的抽象信息时,存在着巨大的短板。
## 致命弱点:AI真的不会“眯眼睛”吗?
“AI不会眯眼睛”当然是一个比喻。其背后深层次的技术原因,在于AI视觉模型与人类视觉系统在工作原理上的根本差异。
对人类而言,“眯眼看图”是一种主动的物理滤波行为。通过眯起眼睛,我们减少了进入视网膜的光线,有效过滤掉了图像中的高频信息(即那些令人眼花缭乱的彩色条纹),从而让低频信息(即蒙娜丽莎的整体轮廓和明暗关系)凸显出来。这是一种基于物理世界经验和生物演化而来的高级感知策略。
而AI的“视觉”,本质上是基于海量数据集训练出来的数学模型。它们通过分析像素矩阵、识别边缘、纹理和颜色分布来“理解”图像。对于清晰、标准的图像,它们的识别能力远超人类。但面对这种专为欺骗视觉系统而设计的错位图,AI的算法失灵了。它们被高频的条纹“噪音”严重干扰,无法像人一样主动忽略这些干扰信息,去捕捉背后更宏观、更抽象的形态。这暴露了当前AI在以下方面的不足:
- 缺乏整体性与情境感知:AI倾向于自下而上地分析局部特征,而难以像人一样自上而下地进行整体性、情境化的感知。
- 模拟能力的局限:AI无法真正“模拟”眯眼这种物理行为背后的光学原理,并将其应用于数字图像分析。虽然可以通过算法(如高斯模糊)实现类似效果,但这需要外部指令或更高级的推理能力来触发。
- 对“欺骗性”数据的脆弱性:对抗性攻击(Adversarial Attack)一直是AI安全领域的难题,而这张图可以看作是一种温和的、艺术化的对抗性样本,它恰好击中了当前模型的软肋。
## 破局者与“作弊”的智慧
在一片“翻车”声中,也并非全无亮点。例如,名为o3-Pro的模型就一次性给出了正确答案。据分析,这可能得益于其更强大的推理轨迹和工具使用能力。o3-Pro的思考链路可能包括了在Python环境中对图像进行旋转、增加对比度、裁剪甚至模糊处理等一系列预操作,相当于用代码“模拟”了眯眼的过程。这不再是单纯的视觉识别,而是结合了逻辑推理和工具调用的复杂任务。
此外,网友们也通过“作弊”的方式帮助AI取得了成功。例如,先手动将图片进行模糊处理,再交给GPT-4o,它就能轻松识别出蒙娜丽莎。这进一步证明,问题不在于模型知识库里没有蒙娜丽莎,而在于其原始感知层无法处理这种特殊的视觉信息。这对于我们使用AI的用户来说,也是一个重要的启示:一个好的提示词(Prompt)或对输入数据进行恰当的预处理,往往能极大地提升AI的性能。
## 从“蒙娜丽莎”看AGI的漫漫长路
“蒙娜丽莎难题”不仅仅是一个有趣的AI测试,更是衡量通用人工智能(AGI)发展水平的一面镜子。它告诉我们,通往AGI的道路,远非堆砌算力和数据那么简单。真正的智能,需要具备像人类一样灵活、多维、且能适应复杂环境的感知与认知能力。
这次集体失利,为AI研发者们指出了明确的优化方向:如何让模型学会“抓重点”、如何更好地整合多模态信息进行推理、以及如何提升模型在非常规、甚至“欺骗性”信息面前的鲁棒性。
未来,我们期待看到能够真正“眯起眼睛”看世界的AI。而在此之前,关注每一次AI的进步与挑战,是我们理解这场技术革命的最佳方式。想要获取更多关于AI、大模型、ChatGPT、Claude等前沿的AI新闻和深度分析,欢迎访问AI门户网站 AIGC.bar,这里有最新的AI日报和最实用的Prompt技巧,助你时刻走在人工智能时代的前沿。
Loading...