Grok-4卖货实战超越GPT-5:AI的终点是AGI还是带货?
type
status
date
slug
summary
tags
category
icon
password
网址
引言
当我们在讨论人工智能的极限时,脑海中浮现的往往是复杂的棋局、深奥的科学计算或是流畅的诗歌创作。然而,一场别开生面的AI竞赛,正将我们的视线从虚拟世界拉回现实——让AI经营一家自动售货机。一个名为「Vending Bench」的全新基准测试,让马斯克的Grok-4与OpenAI的GPT-5等顶尖大模型在真实的商业场景中一较高下。令人意外的是,在这场“AI带货”的比拼中,Grok-4凭借惊人的创收能力,将GPT-5甩在了身后。这不禁让我们思考:通用人工智能(AGI)的终极形态,难道真的是从卖薯片开始的吗?
什么是Vending Bench?一个给AI的“商战”模拟器
Vending Bench并非传统意义上的AI能力测试。它不是让模型回答一个问题或翻译一段话,而是将AI智能体(Agent)置于一个长期、动态且充满不确定性的商业环境中,扮演自动售货机的业务经理。
这个“游戏”的规则看似简单,却蕴含着深刻的挑战:
- 长期决策:AI需要在一个很长的时间跨度里(模拟数月甚至数年)持续做出商业决策。今天的定价会影响明天的销量,今天的采购则决定了下周的库存和利润。
- 真实商业逻辑:AI必须管理库存、分析销售数据、设定商品价格、支付租金等日常开销。例如,如果订购了太多保质期短的零食,就可能面临亏损。
- 长上下文记忆:这是对大模型的一大考验。AI必须“记住”数月前的销售记录,才能预测夏季什么饮料畅销,并提前备货。这远超了许多模型有限的“上下文窗口”,非常容易“忘记”早期的重要信息。
简单来说,Vending Bench考验的不是AI的“智商”,而是其在真实世界中持续创造价值的“财商”和“执行力”。
Grok-4 VS GPT-5:谁是真正的“带货之王”?
在这场独特的较量中,结果令人瞩目。根据Andon Labs公布的榜单,Grok-4在创造财富和销售额方面表现无与伦比,其销量比GPT-5高出约2倍,总营收增长了31%,多卖出了超过1100美元的货物。
- Grok-4:展现了更强的商业敏锐度和销售策略,能够更长时间地维持销售势头,堪称“最会赚钱”的AI。
- GPT-5:虽然在营收上不及Grok-4,但其在持久性和稳定性上达到了完美的100%,与人类基准持平,展现了极高的可靠性。
- Claude系列:表现则各有千秋,Opus 4表现稳健,而Sonnet系列则相对较弱,暴露了在长期任务规划上的一些不足。
这次的胜利让马斯克本人也颇为得意,他认为这证明了Grok在通往AGI的道路上取得了实质性进展。许多用户也因此好奇Grok国内如何使用,而这个测试正展示了其强大的商业推理潜力。
超越聊天框:长周期任务对AI的真正考验
Vending Bench的意义远不止于一场“AI卖货”比赛的排名。它揭示了当前大模型从“聊天机器人”走向“自主智能体”所面临的核心障碍:
- 推理与决策的一致性:即使是表现最好的模型,也偶尔会陷入奇怪的“崩溃循环”,比如忘记已经下过的订单、误解送货时间表等。这表明,模型在长时间跨度内保持逻辑自洽的能力仍有待提高。
- 记忆与遗忘的平衡:模型的失败并不仅仅因为记忆空间(上下文窗口)被填满,更深层的原因在于它们无法像人类一样有效筛选、归纳和应用长期记忆。
- 安全与可靠性:当AI被用于控制物理设备或管理关键业务流程时,这种不可预测性是致命的。一个短期内表现完美的模型,在长期运行中可能会做出灾难性的决策。
如何让AI在漫长的时间线上保持稳定、可靠和透明,是实现真正自主智能体的关键。想要亲身体验Grok的强大能力,可以访问Grok镜像站
https://chat.aigc.bar
,亲自感受其与众不同的对话风格和推理能力,这或许能让你对AI的未来有更深的理解。AGI的尽头是卖薯片?从商业实践看通用人工智能
马斯克曾预言Grok 5将让人有AGI的感觉。Vending Bench的出现,为这一看似夸张的言论提供了一个有趣的注脚。
或许,真正的AGI并不仅仅是拥有海量知识或能通过图灵测试,而是具备在现实世界中设定长期目标、自主规划并可靠执行的能力。运营自动售货机这个看似简单的任务,恰好包含了上述所有要素:它需要感知(销售数据)、规划(库存与定价)、行动(下单与调价)以及适应(根据季节和用户偏好变化)。
这场测试表明,通往AGI的道路可能不止一条。除了不断扩大模型规模,设计出能检验AI在现实世界中长期自主能力的基准,同样至关重要。目前,用户可以通过可靠的Grok官网代理平台
https://chat.aigc.bar
来探索其功能,了解其与其它模型的差异。结论
Grok-4在Vending Bench上的胜利,与其说是技术的碾压,不如说是一次观念的刷新。它告诉我们,评估一个AI的价值,不能只看它在孤立任务上的表现,更要看它在真实、连续、长期的商业实践中创造价值的能力。
从这个角度看,AGI的尽头或许不是卖薯片,但通往AGI的道路,一定充满了类似“卖薯片”这样平凡而又深刻的现实考验。未来,AI不仅要更“聪明”,更要学会如何“经营”,这或许才是衡量其是否真正走向成熟的黄金标准。
Loading...