Grok-4跑分泄露引爆争议：HLE成绩碾压GPT？Grok国内使用指南

type

status

date

slug

summary

引言：AI圈的又一颗“深水炸弹”

近日，AI领域风云再起。一则关于马斯克旗下xAI公司最新大模型Grok-4及其代码版本Grok-4 Code的基准测试（Benchmark）成绩疑似泄露，瞬间在科技圈引爆热议。泄露的数据显示，Grok-4在多项关键指标上表现惊人，尤其是在被誉为“人类最后考试”（HLE）的超高难度测试中，取得了前所未有的高分，似乎预示着一个新的AI王者即将诞生。然而，这份过于亮眼的成绩单也引来了广泛的质疑。这究竟是xAI的技术突破，还是一场精心设计的“数据魔法”？

惊人的跑分数据：Grok-4 全面对比

根据X平台博主@legit_api披露的信息，Grok-4系列的性能表现堪称“恐怖”，在多个行业公认的基准测试中，其成绩不仅超越了现有顶尖模型，甚至在某些方面实现了翻倍的领先。

HLE（人类最后考试）：这是争议最大的地方。Grok-4在使用推理技术后得分高达 45%，而其标准得分也有35%。作为对比，OpenAI最强的o3模型公开得分约为20%，GPT-4o更是望尘莫及。考虑到HLE测试的随机猜测准确率仅为5%，这一成绩的含金量不言而喻。

GPQA（研究生级物理与天文学问题）：Grok-4取得了 87-88% 的高分，与OpenAI的顶级水平旗鼓相当，并显著优于Claude 4 Opus的约75%。

AIME '25（美国数学奥赛）：Grok-4在此项测试中得分 95%，几乎达到了完美水平，将得分34%的Claude 4 Opus远远甩在身后。

SWEBench（软件工程基准测试）：专为编程设计的Grok-4 Code得分在 72-75% 之间，与Claude Opus 4的72.5%持平，略高于OpenAI o3。

如果数据属实，这意味着Grok-4在自然语言理解、逻辑推理、数学乃至代码能力上，都达到了一个新的高度。

争议焦点：HLE 45% 的得分是真是假？

尽管整体跑分令人印象深刻，但几乎所有的讨论都聚焦于HLE测试上那惊人的45%得分。为何这个数字会引发如此大的争议？

首先，HLE基准测试以其极高的难度和开放式回答著称，旨在评估AI模型在人类知识广度和深度上的极限。45%的得分不仅是Gemini 2.5 Pro成绩的两倍，也远超所有已公开的SOTA（State-of-the-Art）模型。许多业内人士认为，在当前技术阶段，实现如此巨大的飞跃几乎是不可能的。

其次，有网友指出，xAI在过去的报告中有过“选择性报告”的先例，即对自己模型采用最优的、可能包含特殊优化的测试方法，而对竞品则使用标准单次尝试的结果，这种不对称的比较方法让人生疑。大家普遍认为，泄露的“推理得分”可能是在某种非公开的、实验性的配置下获得的，而35%的“标准分”或许更具参考价值，但即便如此，也已是顶尖水平。

冰山一角：Grok-4 不止于跑分

除了跑分，关于Grok-4本身的更多细节也浮出水面。xAI开发者中控台的源代码和截图显示：

模型定位：Grok-4被描述为在自然语言、数学和推理方面“拥有无可匹敌的能力”的通才模型，其标语是“Think Bigger and Smarter”。

技术规格：Grok-4支持约13万token的上下文窗口，虽然小于某些竞品，但这可能意味着xAI更侧重于优化推理速度和实时性。模型将支持函数调用、结构化输出等高级功能。

开发状态：马斯克本人也证实，他正“通宵达旦地开发Grok-4”，甚至在办公室支起帐篷，全身心投入到最后的训练冲刺中，这无疑为模型的发布增添了更多戏剧性和期待感。

如何体验Grok？Grok国内使用指南

随着Grok-4的讨论热度不断攀升，许多AI爱好者和开发者都迫不及待地想要体验马斯克旗下这款备受瞩目的AI模型。对于许多想知道 Grok国内如何使用 的用户来说，直接访问 Grok官网 可能存在网络和注册上的困难。

此时，一个稳定可靠的 Grok镜像站 就显得尤为重要。通过访问 https://chat.aigc.bar，用户可以方便地体验到类似Grok等前沿大模型的能力，无需复杂的设置。这里不仅提供了便捷的访问途径，也是探索 Grok官方中文版 可能功能的绝佳平台，让您第一时间感受顶级AI的魅力。如果您正在寻找 Grok官方 或 Grok镜像 服务，这里将是您的理想选择。

结论：拭目以待，等待马斯克的最终答案

目前，关于Grok-4的一切还都停留在“泄露”和“传闻”阶段。这份惊人的成绩单，既可能是xAI即将投下的一枚改变游戏规则的核弹，也可能是一场最终需要澄清的误会。无论如何，它已经成功地搅动了整个AI江湖，让所有人的目光都聚焦在了马斯克和他的xAI身上。

真正的答案，只能等待Grok-4的正式发布。届时，我们才能知道，这究竟是一次革命性的技术飞跃，还是另一场AI竞赛中的喧嚣。让我们拭目以待。