Grok-4跑分泄露：HLE成绩震惊业界，是实力超群还是数据疑云？想在国内体验Grok官方中文版？试试Grok镜像站！

type

status

date

slug

summary

根据泄露的信息，Grok-4的性能表现堪称恐怖，在多个关键基准测试中都取得了领先或顶级的成绩。

HLE (人类最后考试)：这是最令人震惊的一项。Grok-4的标准得分据称为35%，而在使用推理技术后，这一分数飙升至45%。作为对比，OpenAI o3的最佳公开得分约为20%，而GPT-4o更是只有其四到五分之一。HLE是一个自由回答测试，随机猜测的准确率仅为5%，每一个百分点的提升都极为困难。Grok-4的成绩几乎是其主要竞争对手的两倍以上。

GPQA (研究生级物理和天文学问题)：Grok-4取得了87-88%的高分，与OpenAI o3的顶级水平持平，并显著超越了Claude 4 Opus的约75%。

AIME '25 (美国数学奥赛)：Grok-4在此项测试中得分高达95%，将Claude 4 Opus的34%远远甩在身后，也优于OpenAI o3的80-90%区间。

SWE-Bench (软件工程基准)：专为编程设计的Grok-4 Code得分达到72-75%，与Claude Opus 4的72.5%旗鼓相当，略高于OpenAI o3的71.7%。

如果这些数据属实，Grok-4无疑将在多个维度上树立新的行业标杆，尤其是在高难度推理和专业知识领域。

尽管数据亮眼，但社区中最激烈的讨论也正围绕着这份成绩单的真实性，尤其是HLE的45%高分。

许多网友和专家表示难以置信，并提出了合理的质疑。主要的疑点集中在以下几个方面：

测试方法不透明：有网友指出，xAI过去在报告自家模型成绩时，曾采用与报告其他模型不同的统计方法。这次泄露的成绩，特别是区分了“标准得分”和“使用推理技术后得分”，可能意味着后者是在某种非公开、高度优化的实验性配置下得出的，不代表模型的普适能力。

分数过于“离谱”：在AI基准测试中，性能通常是渐进式提升的。Grok-4在HLE上相较于所有顶级对手实现翻倍式的超越，这不符合技术发展的普遍规律，因此引人怀疑其背后是否存在“数据污染”或特殊的测试技巧。

信息检索的挑战：HLE基准包含了大量晦涩难懂的信息检索任务，这对模型的知识库广度和深度提出了极高要求。Grok-4如何克服这一难题并取得如此高分，是目前无法解释的谜团。

泄露信息的博主回应称，这些数字是真实的，但测试配置未知。这番话更增添了事件的神秘色彩。在官方正式发布和公布详细技术报告之前，所有的猜测都只能是猜测。

抛开跑分争议，从泄露的xAI开发者后台信息和马斯克近期的动态中，我们也能窥见Grok-4的全貌和xAI的雄心。

模型特性：Grok-4被描述为在自然语言、数学和推理方面“拥有无可匹敌的能力”的通才模型，其标语是“Think Bigger and Smarter”。它将支持函数调用、结构化输出等高级功能。

上下文窗口：Grok-4支持约13万tokens的上下文窗口，虽然小于某些竞争对手，但这可能表明xAI更侧重于优化模型的推理速度和实时性，而非单纯追求长文本处理能力。

这一切都表明，xAI正倾尽全力，试图通过Grok-4这款产品，在由OpenAI、Google和Anthropic主导的AI牌局中，成为一个真正的“破局者”。

看到Grok-4如此强大的潜力，相信很多国内用户都迫不及待地想要亲身体验。然而，由于网络环境等原因，直接访问Grok官网或使用Grok官方服务可能会遇到困难。那么，Grok国内如何使用呢？

一个稳定可靠的解决方案是使用优质的Grok镜像站。这些平台通过技术中转，为国内用户提供了流畅访问Grok及其他世界顶级AI模型的渠道。您无需复杂的设置，即可轻松体验Grok官方中文版的强大功能。

我们推荐您访问 [https://chat.aigc.bar](https://chat.aigc.bar)，这是一个集成了包括Grok在内的多种前沿AI模型的综合性平台，为您提供稳定、便捷的Grok镜像服务，让您第一时间跟上全球AI技术的发展步伐。

Grok-4的跑分泄露事件，无论最终被证实为真或为夸大，都已经成功地将全球的目光聚焦于xAI。它像一条鲶鱼，搅动了本已竞争激烈的大模型市场。

目前，除了那令人难以置信的HLE分数外，Grok-4的其他成绩看起来相对“合理”且极具竞争力。最终的答案，只能等待马斯克和xAI亲自揭晓。如果成绩属实，那么无论是模型架构的创新还是训练规模的突破，Grok都将引领新一轮的AI技术浪潮。让我们拭目以待。