苹果AI论文翻车实录:GPT生成数据坑惨程序员,大厂科研也注水?

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能飞速发展的今天,大厂出品的论文通常被视为质量的保证和行业的风向标。然而,近期发生的一起“大无语事件”却狠狠打了这一认知的脸。一篇挂着苹果(Apple)名头的AI论文,因为严重的数据质量问题,不仅误导了同行,更导致北京阶跃星辰的一位研究员在通宵加班中经历了从兴奋到绝望的过山车。
这起事件的核心在于:研究人员过度依赖GPT等大模型自动生成数据,却缺乏必要的人工质检,导致所谓的“精心把控”变成了“幻觉盛宴”。对于关注AI资讯大模型发展的从业者来说,这不仅是一个瓜,更是一次关于学术严谨性和合成数据风险的深刻警示。作为专业的AI新闻AI门户,我们有必要深入剖析这一事件的来龙去脉及其背后的行业隐忧。

始末:从“如获至宝”到“通宵填坑”

故事的主角是国内AI大模型公司阶跃星辰的研究员Lei Yang。本月初,他被同事推荐了一篇苹果团队挂在arXiv上的论文(同时也在投ICLR 2026)。这篇论文提出了一个基于谜题的视觉推理任务Benchmark,声称能诊断多模态模型的推理能力,且数据经过“人工精心把控”。
由于该Benchmark与Lei Yang的研究方向高度契合,他兴奋地暂停了手头工作,决定利用周末时间通宵适配这个新测试集。然而,现实给了他当头一棒。在熬夜完成适配后,模型跑出的分数低得离谱。
起初,Lei Yang以为是自己的问题,但在排查中发现官方代码存在荒谬Bug——请求VLM时竟然只用了图片路径字符串,而没有加载实际图片。更令人崩溃的是,修复了这个Bug后,模型分数不升反降。这迫使他不得不开始人工审查数据集的Ground Truth(标准答案)。

核心症结:GPT生成的“虚假真理”

在详细分析了模型答错的前20道题后,Lei Yang震惊地发现,其中竟然有6道题是标准答案(GT)本身错了。经过进一步估算,该数据集的GT错误率可能高达30%。
这些错误的风格具有典型的大模型幻觉特征。论文作者声称数据经过人工把控,但实际上,他们很可能直接使用了ChatGPT或类似模型将解答思路转换为分步骤的思维链(CoT),在此过程中模型产生了大量幻觉,而作者团队完全没有进行实质性的复核。
这就造成了一个极其讽刺的局面:一个用来测试模型推理能力的Benchmark,其标准答案却是由另一个会产生幻觉的模型生成的。这种“左脚踩右脚”的合成数据生产方式,如果没有严格的AGI研究规范和质检流程,最终产出的只能是误导性的垃圾数据。

维权之路:被无视的Issue与公开处刑

面对如此严重的学术疏忽,Lei Yang最初选择了体面的方式——在GitHub上提交Issue。然而,论文作者仅做了简单回复便关闭了Issue,态度敷衍。
随着ICLR审稿意见的公布,Lei Yang发现竟然没有一个审稿人指出数据质量问题,这让他彻底愤怒。为了防止更多同行像他一样浪费宝贵的AI研发时间,他选择了在OpenReview上发表公开评论(Public Comment),详细列举了GT错误的实例,并直言该数据集极易误导研究方向。
这一举动迅速引发了社区的广泛关注,Reddit上的吃瓜群众纷纷摇头,感叹大模型时代的学术研究变得“一团糟”。在舆论压力下,论文作者最终宣布撤稿,并删除了GitHub仓库。

作者回应与行业反思

在撤稿后,原论文作者在社交平台上做出了回应,承认了审核不周的问题。他解释称,虽然对部分样本做了检查,但忽略了GPT在自动转换CoT时产生的幻觉。作者表示这是一个利用业余时间做的项目,希望能推进小方向的发展,但承认了在数据构建上的重大疏忽。
这起事件给整个人工智能学术界敲响了警钟。在LLMPrompt工程日益普及的今天,使用AI辅助科研本无可厚非,但绝不能用AI完全替代人类的判断,尤其是在构建Benchmark这种基础设施时。
对于广大开发者和研究人员而言,这也提醒我们在使用开源资源时要保持审慎。不要盲目迷信大厂光环,遇到反常的实验结果时,多一份质疑精神。

结语

苹果AI论文翻车事件,不仅是一个关于代码Bug的故事,更是AI时代学术泡沫的一个缩影。它揭示了在追求速度和数量的当下,基础数据的质量控制正面临严峻挑战。
想要获取更多真实、深度、不盲从的AI资讯AI新闻,请持续关注 AINEWS。我们将为您过滤掉行业噪音,提供真正有价值的AI日报大模型评测及AI变现的前沿洞察,助您在AGI浪潮中保持清醒的头脑。
Loading...

没有找到文章