Grok-4跑分泄露引爆争议:HLE成绩碾压GPT?Grok国内使用指南

type
status
date
slug
summary
tags
category
icon
password
网址

引言:AI圈的又一颗“深水炸弹”

近日,AI领域风云再起。一则关于马斯克旗下xAI公司最新大模型Grok-4及其代码版本Grok-4 Code的基准测试(Benchmark)成绩疑似泄露,瞬间在科技圈引爆热议。泄露的数据显示,Grok-4在多项关键指标上表现惊人,尤其是在被誉为“人类最后考试”(HLE)的超高难度测试中,取得了前所未有的高分,似乎预示着一个新的AI王者即将诞生。然而,这份过于亮眼的成绩单也引来了广泛的质疑。这究竟是xAI的技术突破,还是一场精心设计的“数据魔法”?

惊人的跑分数据:Grok-4 全面对比

根据X平台博主@legit_api披露的信息,Grok-4系列的性能表现堪称“恐怖”,在多个行业公认的基准测试中,其成绩不仅超越了现有顶尖模型,甚至在某些方面实现了翻倍的领先。
  • HLE(人类最后考试):这是争议最大的地方。Grok-4在使用推理技术后得分高达 45%,而其标准得分也有35%。作为对比,OpenAI最强的o3模型公开得分约为20%,GPT-4o更是望尘莫及。考虑到HLE测试的随机猜测准确率仅为5%,这一成绩的含金量不言而喻。
  • GPQA(研究生级物理与天文学问题):Grok-4取得了 87-88% 的高分,与OpenAI的顶级水平旗鼓相当,并显著优于Claude 4 Opus的约75%。
  • AIME '25(美国数学奥赛):Grok-4在此项测试中得分 95%,几乎达到了完美水平,将得分34%的Claude 4 Opus远远甩在身后。
  • SWEBench(软件工程基准测试):专为编程设计的Grok-4 Code得分在 72-75% 之间,与Claude Opus 4的72.5%持平,略高于OpenAI o3。
如果数据属实,这意味着Grok-4在自然语言理解、逻辑推理、数学乃至代码能力上,都达到了一个新的高度。

争议焦点:HLE 45% 的得分是真是假?

尽管整体跑分令人印象深刻,但几乎所有的讨论都聚焦于HLE测试上那惊人的45%得分。为何这个数字会引发如此大的争议?
首先,HLE基准测试以其极高的难度和开放式回答著称,旨在评估AI模型在人类知识广度和深度上的极限。45%的得分不仅是Gemini 2.5 Pro成绩的两倍,也远超所有已公开的SOTA(State-of-the-Art)模型。许多业内人士认为,在当前技术阶段,实现如此巨大的飞跃几乎是不可能的。
其次,有网友指出,xAI在过去的报告中有过“选择性报告”的先例,即对自己模型采用最优的、可能包含特殊优化的测试方法,而对竞品则使用标准单次尝试的结果,这种不对称的比较方法让人生疑。大家普遍认为,泄露的“推理得分”可能是在某种非公开的、实验性的配置下获得的,而35%的“标准分”或许更具参考价值,但即便如此,也已是顶尖水平。

冰山一角:Grok-4 不止于跑分

除了跑分,关于Grok-4本身的更多细节也浮出水面。xAI开发者中控台的源代码和截图显示:
  • 模型定位:Grok-4被描述为在自然语言、数学和推理方面“拥有无可匹敌的能力”的通才模型,其标语是“Think Bigger and Smarter”。
  • 技术规格:Grok-4支持约13万token的上下文窗口,虽然小于某些竞品,但这可能意味着xAI更侧重于优化推理速度和实时性。模型将支持函数调用、结构化输出等高级功能。
  • 开发状态:马斯克本人也证实,他正“通宵达旦地开发Grok-4”,甚至在办公室支起帐篷,全身心投入到最后的训练冲刺中,这无疑为模型的发布增添了更多戏剧性和期待感。

如何体验Grok?Grok国内使用指南

随着Grok-4的讨论热度不断攀升,许多AI爱好者和开发者都迫不及待地想要体验马斯克旗下这款备受瞩目的AI模型。对于许多想知道 Grok国内如何使用 的用户来说,直接访问 Grok官网 可能存在网络和注册上的困难。
此时,一个稳定可靠的 Grok镜像站 就显得尤为重要。通过访问 https://chat.aigc.bar,用户可以方便地体验到类似Grok等前沿大模型的能力,无需复杂的设置。这里不仅提供了便捷的访问途径,也是探索 Grok官方中文版 可能功能的绝佳平台,让您第一时间感受顶级AI的魅力。如果您正在寻找 Grok官方Grok镜像 服务,这里将是您的理想选择。

结论:拭目以待,等待马斯克的最终答案

目前,关于Grok-4的一切还都停留在“泄露”和“传闻”阶段。这份惊人的成绩单,既可能是xAI即将投下的一枚改变游戏规则的核弹,也可能是一场最终需要澄清的误会。无论如何,它已经成功地搅动了整个AI江湖,让所有人的目光都聚焦在了马斯克和他的xAI身上。
真正的答案,只能等待Grok-4的正式发布。届时,我们才能知道,这究竟是一次革命性的技术飞跃,还是另一场AI竞赛中的喧嚣。让我们拭目以待。
Loading...

没有找到文章