开源新里程碑:商汤8B模型空间智能超越GPT-5
type
status
date
slug
summary
tags
category
icon
password
网址

引言
在人工智能(AI)飞速发展的今天,以ChatGPT为代表的大语言模型(LLM)在文本、代码和逻辑推理方面展现了惊人的能力。然而,当这些聪明的AI面对现实世界的三维空间问题时,却常常显得力不从心。一个简单的物体俯视图判断,就可能难倒最顶尖的模型。这块名为“空间智能”的短板,正成为AI迈向通用人工智能(AGI)的关键瓶颈。近日,一则重磅AI新闻引爆了科技圈:商汤科技正式发布并开源了SenseNova-SI系列空间智能大模型,其8B版本在多项关键测试中,性能竟超越了尚未发布的GPT-5,再次证明了开源力量的巨大潜力。这不仅是一次技术的突破,更是AI“看懂”物理世界征程中的重要一步。
---
开源模型的又一次胜利:SenseNova-SI性能惊艳
商汤此次发布的SenseNova-SI系列模型,包含2B和8B两个版本,其表现堪称惊艳。特别是在与行业顶尖模型的较量中,SenseNova-SI-8B展现出了绝对的统治力。
在VSI-Bench、MMSI-Bench、MindCube-Tiny与ViewSpatial四大核心空间智能基准测试中,SenseNova-SI-8B取得了60.99的平均分。这个成绩不仅远超同级别的开源模型,如Qwen3-VL-8B(40.16分)和BAGEL-7B(35.01分),也碾压了专注于空间理解的垂类模型。
更令人瞩目的是,这个8B参数规模的开源模型,其平均成绩已经领先于闭源巨头们的旗舰模型,包括GPT-5(49.68分)和Gemini-2.5-Pro(48.81分)。这意味着,在空间智能这一特定但至关重要的领域,一个轻量级的开源模型,凭借精巧的设计,实现了对超大闭源模型的“降维打击”。
揭秘背后黑科技:首次验证空间智能“尺度效应”
SenseNova-SI的成功并非偶然,其背后是一套系统性的训练范式和理论突破。商汤的研究团队首次在空间智能领域验证了“尺度效应”(Scaling Law)的存在。
“尺度效应”是大模型领域的一条黄金法则,即随着模型参数、数据量和计算量的增加,模型性能会可预测地提升。此前,这主要在语言和视觉等领域得到验证。商汤的突破在于:
1. 构建空间能力分类体系:团队将复杂的空间智能划分为六大核心维度:
* 空间测量:理解物体的尺寸、距离等。
* 空间重构:从2D图像推断3D结构。
* 空间关系:判断物体之间的方位、拓扑关系。
* 视角转换:从不同视角理解同一场景。
* 空间形变:理解物体在运动或受力后的形态变化。
* 空间推理:基于空间信息进行复杂的逻辑推断。
- 系统性扩充数据:基于上述体系,商汤整合了其在多模态感知和视觉领域的深厚积累,构建了大规模、高质量的空间理解训练数据集。
通过这一方法,他们证明了只要持续提供高质量的空间数据,模型的空间认知能力就会同步增强。这一发现为未来高效提升人工智能的空间理解能力指明了一条清晰的道路。
直观对比:当GPT-5遇到“空间难题”
为了更直观地展示SenseNova-SI的能力,研究团队选取了六道典型的空间智能题目,对GPT-5和SenseNova-SI-8B进行了直接PK。结果显示,GPT-5在多个问题上出现误判,而SenseNova-SI-8B则表现出惊人的一致性和准确性。
- 问题1:俯视图选择
- 任务:判断一个由多个立方体组成的物体的正确俯视图。
- 结果:GPT-5选择了错误的选项,而SenseNova-SI-8B准确选出正确答案。
- 问题2:相对方位判断
- 任务:从相机操作者的视角,判断摩托车在其左侧还是右侧。
- 结果:GPT-5误判为左侧,SenseNova-SI-8B正确判断为右侧。
- 问题3:交通行为预测
- 任务:预测道路上一辆黄色汽车的下一步动向(直行、左转、右转或静止)。
- 结果:GPT-5判断为静止,SenseNova-SI-8B正确预测为右转。
- 问题4 & 5:视角变换下的移动方向判断
- 任务:通过对比室内外两张不同视角的图片,判断观察者的移动方向。
- 结果:在这两道题中,GPT-5均给出了错误答案,而SenseNova-SI-8B则连续两次准确判断出移动方向。
- 问题6:物体相对位置识别
- 任务:根据一张正面图,判断桌子右侧的物体是什么。
- 结果:GPT-5选择了错误的物体,SenseNova-SI-8B则准确定位到了门。
这一系列对比清晰地表明,SenseNova-SI在空间理解和推理的稳定性上,已经达到了业界领先水平。
超越基准测试:空间智能的未来应用与生态
SenseNova-SI的发布,不仅仅是一次学术上的胜利,它更预示着AI变现和落地应用的巨大潜力。空间智能是具身智能、自动驾驶和机器人的核心基础能力。一个能真正“看懂”三维世界的AI,才能在物理环境中安全、高效地执行任务。
商汤已将SenseNova-SI作为核心组件,接入其“悟能”具身智能平台,旨在打造能够自主理解和适应物理世界的“开悟”世界模型。同时,商汤还开源了空间智能测评平台EASI,建立“英雄榜”,希望与全球开发者共同推动这一领域的进步,构建繁荣的开源生态。
结论:让AI真正“看懂”物理世界
从语言到视觉,再到如今的空间智能,AI正在一步步补齐理解真实世界所需的各项能力。商汤SenseNova-SI的成功,不仅为开源社区注入了强大的信心,也为解决当前大模型面临的空间感知难题提供了全新的范本。它证明了通过专注和系统性的研发,即使是中等规模的模型也能在关键能力上实现SOTA(State-of-the-Art)级别的表现。
随着空间智能技术的不断成熟,我们有理由相信,一个能与物理世界无缝交互的AGI时代正加速到来。想要获取更多前沿的AI资讯、探索强大的AI工具,欢迎访问AI门户网站 https://aigc.bar,与我们一同见证未来。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)