谷歌神秘AI模型:破解18世纪天书,推理能力惊艳全网
type
status
date
slug
summary
tags
category
icon
password
网址

最近,人工智能领域再次掀起波澜。一个据传是谷歌未发布的新一代模型,在一次历史学家的盲测中,展现出了令人瞠目结舌的能力——它不仅轻松破解了200多年前的手写“天书”账本,更在过程中展现了超越模式识别的、近乎于“理解”的推理能力。这一事件迅速成为全网热议的焦点,也让我们重新审视大模型(LLM)能力的边界。
这一突破性的进展,无疑是AI领域最前沿的AI资讯,预示着大模型正在从模式识别向真正的抽象推理迈进。想要持续追踪这类AI新闻和AGI的最新动态,可以关注像 AIGC导航站 (https://aigc.bar) 这样的AI门户,获取关于 OpenAI, ChatGPT, Claude 等模型的最新进展。
历史手稿:AI的“最后一英里”难题
对于AI来说,识别历史手写文本(HTR)一直是一项艰巨的挑战。历史学家Mark Humphries指出,这不仅仅是一个视觉识别任务,更是一场对历史背景知识、上下文理解能力的综合考验。
历史文献充满了各种“不完美”:
* 字迹潦草:不同人的书写风格迥异,难以辨认。
* 拼写不规范:在拼写标准尚未统一的年代,同一个词可能有多种写法。
* 语法和格式混乱:缺乏现代标点,大小写不一,格式随心所欲。
* 低概率信息:人名、地名、日期和金额等信息,对于以“预测下一个词”为核心机制的Transformer模型来说,是不可预测的、低概率的答案。
过去的AI模型,如GPT-4和早期的Gemini,虽然能达到90%以上的准确率,但剩下的10%“硬骨头”才是关键。这“最后一英里的准确性”,是AI工具能否在历史研究等专业领域真正实用的分水岭。模型必须克服其预测性训练的倾向,才能准确转写那些不符合常规语言模式的“错误”信息。
从90%到99%:新模型的性能飞跃
为了量化模型的真实能力,Humphries教授和他的同事建立了一个包含50份、约1万词的历史文档测试集,并确保这些文档未被用于模型训练。他们使用字符错误率(CER)和词错误率(WER)作为评估指标。
模型的进化路径清晰可见:
1. GPT-4:奠定了基础,但错误率较高。
2. Gemini-1.5-Pro:性能相比GPT-4提升了约50-70%。
3. Gemini-2.5-Pro:在此基础上又提升了50-70%,严格WER降至11%,排除大小写和标点错误后降至4%。
然而,这次测试的谷歌神秘新模型,其表现堪称一次质的飞跃。在处理测试集中最难的几份文档时,其结果惊人:
* 严格错误率:CER为1.7%,WER为6.5%。这意味着包括标点、大小写在内,平均每50个字符才错1个。
* 修正后错误率:当排除不影响语义的大小写和标点错误后,错误率骤降至CER 0.56%和WER 1.22%。
这个成绩已经完全达到了人类专业转写员的水准,甚至在某些方面有所超越。这表明,人工智能在处理复杂、模糊的视觉和文本信息方面,已经达到了新的高度。
惊艳一刻:AI不只“看懂”,更能“理解”
如果说高准确率的转写是“技艺精湛”,那么接下来对18世纪商人账本的破解,则展示了近乎“顿悟”的智能。
这份账本由一位英语不熟练的荷兰店员记录,内容混杂了英荷双语、不规范的拼写以及早已废弃的英镑/先令/便士非十进制货币体系。对于任何AI模型而言,这都是一场噩梦。
然而,谷歌的新模型不仅近乎完美地转写了所有数字和文字,还做出了两件让历史学家本人都“汗毛直竖”的事情:
- 智能纠错:店员为省事,将“2先令0便士”记为“2/”。模型在转写时,自动将其规范为“@2/0”,这种写法更清晰、更符合账本的内在逻辑,显示了它对记账惯例的理解。
2. 多步推理与上下文还原:账本中有一行记录为“To 1 loff Sugar 145”,描述了一笔糖的交易。模型没有直接转写“145”,而是输出“To 1 loff Sugar 14 lb 5 oz”(14磅5盎司)。
* 推理过程:模型意识到“145”并非一个普通数字,而是描述糖块重量的代码。它利用账目中的总价(19先令1便士)和单价(1先令4便士),在英镑、先令、便士(非十进制)与磅、盎司(非十进制)之间进行了一系列复杂的多步换算,反推出了精确的重量。
* 计算还原:(19先令 * 12 + 1便士) / (1先令 * 12 + 4便士) = 229 / 16 = 14.3125。而14.3125磅正好等于14磅5盎司。
这一过程表明,模型不仅仅是在识别字符,它理解了这笔交易的经济背景、当时的度量衡系统,并利用逻辑推理补全了作者省略的关键信息。
涌现的推理:AGI的微光乍现?
Humphries教授认为,这可能是一种“涌现的、隐式的推理”。模型并非被编程去执行符号逻辑运算,而是在庞大的数据学习中,自发地将感知、记忆与逻辑能力结合了起来。它跨越了从模式识别到真正“理解”的界限。
这个“糖锭条目”案例发出了一个清晰的信号:机器开始能够就它们所观察到的世界,进行抽象和符号化的推理。这不再是简单的信息复制,而是对信息背后深层含义的洞察。
结论
谷歌神秘新模型的惊艳表现,不仅仅是手写识别技术的一次突破,它更可能是人工智能发展史上的一个里程碑。它向我们展示了,当模型规模和数据质量达到某个临界点时,可能会涌现出我们未曾预料的、更接近人类的推理和理解能力。我们或许正在见证AGI(通用人工智能)从遥远的科幻概念,逐渐显露出第一缕微光的历史性时刻。未来的AI将如何发展,我们拭目以待。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)