Grok-4跑分泄露:HLE碾压Gemini,马斯克的AI王牌是真是假?立即体验Grok国内镜像

type
status
date
slug
summary
tags
category
icon
password
网址

引言:AI圈的又一颗“重磅炸弹”

近日,AI领域风云再起。一份疑似来自马斯克旗下xAI公司的Grok-4及其代码版本Grok-4 Code的基准测试成绩单在网络上不胫而走,瞬间点燃了整个科技圈的讨论热情。其中,最引人注目的莫过于其在号称“人类最后考试”(HLE)的超高难度测试中取得了惊人的45%高分,几乎是竞争对手的两倍。这一成绩如果属实,无疑将重塑当前的大模型竞争格局。然而,在惊叹之余,巨大的质疑声也随之而来。这究竟是xAI的技术实力展现,还是一场精心策划的“数字游戏”?

## 惊人跑分:Grok-4全面对标甚至超越顶尖模型?

根据泄露的数据,Grok-4在多个关键基准测试中都表现出了极强的竞争力,甚至在某些方面实现了对OpenAI和Google等巨头的超越。
  • HLE(人类最后考试):Grok-4使用推理技术后得分高达 45%,而其标准得分也有35%。这远超OpenAI o3的最佳公开得分(约20%),更是GPT-4o的四到五倍。要知道,HLE是一个自由回答测试,随机猜测准确率仅为5%,每一个百分点的提升都极其困难。
  • GPQA(研究生级物理和天文学问题):Grok-4取得了 87-88% 的高分,与OpenAI o3的顶级水平持平,并显著优于Claude 4 Opus的约75%。
  • AIME '25(美国数学奥赛):Grok-4在此项测试中得分 95%,不仅碾压了Claude 4 Opus的34%,也略微领先于OpenAI o3的80-90%。
  • SWE-Bench(软件工程基准):专为编程设计的Grok-4 Code得分达到 72-75%,与Claude Opus 4持平,并略高于OpenAI o3。
从数据上看,Grok-4似乎已经具备了与业界最强模型一较高下的实力,其在数理和推理方面的表现尤为突出。

## HLE 45%:是技术突破还是“数字游戏”?

尽管Grok-4在多项测试中表现优异,但几乎所有的争议都集中在了HLE测试的45%得分上。这一成绩高得有些“不真实”,也因此引发了社区的广泛质疑。
一方面,如果成绩为真,这代表着Grok-4在处理复杂、晦涩、需要深度推理和信息检索的人文问题上取得了历史性突破,真正触及了AGI(通用人工智能)的门槛。
另一方面,许多网友和分析师持谨慎甚至怀疑的态度。他们认为,需要关注“标准得分”(35%)与“使用推理技术后得分”(45%)的区别,后者可能涉及了普通用户无法复现的特殊实验性配置。此外,有网友指出xAI过去在报告模型性能时存在“双重标准”的嫌疑——对自己模型采用最优报告方法,对竞品则采用单次尝试结果,这削弱了数据的可信度。在没有官方正式发布和第三方独立验证之前,这个惊人的HLE分数更像是一个问号而非句号。

## 跑分之外:我们对Grok-4还了解多少?

除了令人瞠目的跑分,近期从xAI开发者中控台泄露的信息也让我们得以一窥Grok-4的更多细节。
  • 模型能力:Grok-4被描述为在自然语言、数学和推理方面“拥有无可匹敌的能力”的通才模型。它将支持函数调用、结构化输出和高级推理,但初期仅支持文本模式,视觉等多模态功能仍在开发中。
  • 上下文窗口:Grok-4支持约13万token的上下文窗口。这一尺寸虽不及某些竞品,但可能暗示xAI更侧重于优化模型的推理速度和实时性,而非追求极限的长上下文处理能力。
  • 开发状态:马斯克本人近期表示正“通宵达旦地开发Grok-4”,甚至在办公室支起帐篷,全身心投入到最后的训练冲刺中。这种“卷王”姿态,无疑预示着Grok-4的发布已迫在眉睫。

## 如何在国内抢先体验Grok级别的AI?

随着Grok-4的发布临近,许多国内用户都非常关心 Grok国内如何使用 的问题。虽然Grok的官方渠道通常与X平台深度绑定,国内用户直接访问可能存在障碍。但大家不必灰心,因为AI世界的发展总是充满惊喜。
对于那些渴望体验最前沿大模型能力的用户,一个绝佳的选择是通过稳定可靠的 Grok镜像站 或AI集成平台。例如,https://chat.aigc.bar 这样的网站,它通常会第一时间集成全球顶尖的大模型,为用户提供了一个便捷的 Grok国内使用 窗口。通过这些平台,你不仅可以绕过复杂的网络设置,还能以更低的门槛接触到接近 Grok官方 甚至 Grok官方中文版 的体验,无论是进行日常问答、代码编写还是深度内容创作,都能感受到顶尖AI的强大。

结论:等待靴子落地

Grok-4的泄露跑分无疑为AI竞赛投下了一枚深水炸弹。它所展现出的潜力,特别是令人难以置信的HLE成绩,让人们对马斯克的xAI充满了期待和想象。然而,在AI领域,基准跑分从来都只是故事的一部分。真正的考验,在于模型正式发布后,在全球数百万用户的实际应用中所展现出的稳定性、创造力和真实价值。
目前,所有的猜测和讨论都还停留在纸面上。Grok-4究竟是名副其实的“王牌”,还是被过度包装的“期货”?一切的答案,都有待马斯克亲自揭晓。让我们拭目以待,看这场由Grok掀起的AI风暴将如何改变未来。
Loading...

没有找到文章