先给你一个总览:sensenova-si是商汤2025年11月开源的空间智能大模型,有2b、8b两个轻量版本,在vsi、mmsi、mindcube、viewspatial四大权威测试里,8b版平均60.99分,把gpt-5(49.68)、gemini
2.5
pro(48.81)甩在身后,靠的是不堆参数堆方法,用原生多模态架构+空间专项训练,让ai真正理解三维世界,而不是只会“看图说话”。下面用大白话掰开揉碎了讲,保证你看完就懂。
一、为啥说“空间智能”是ai的命门
-
ai的“老盲症”:以前的ai就是个“睁眼瞎学霸”——读书万卷、写文一流,但看三维世界一塌糊涂。比如给它一张桌子的图,它分不清哪个是正面、哪个是侧面;自动驾驶场景里,它可能把“旁边车要右转”判成“静止”,这就是行业里说的“空间认知短板”。
-
问题出在哪:传统大模型用的是“拼接式架构”,先把图片转成文字信号再解读,就像把3d电影转成2d剧本再讲给你听,中间大量空间细节全丢了,相当于让盲人靠听描述去想象魔方结构,怎么可能对。
-
为啥现在必须解决:ai要落地到自动驾驶、机器人、工业制造、3d设计这些领域,必须能跟物理世界交互,空间理解是底层能力。没有它,具身智能就是空话,机器人拿杯子会摔、自动驾驶会撞、数字人做直播动作会飘,根本没法商用。
二、sensenova-si到底牛在哪(数据说话)
-
核心成绩:8b版在四大空间测试中平均60.99分,比gpt-5高11+分,比同级开源模型(如qwen3-vl-8b)高20+分;2b轻量版也照样领先不少,不是靠堆参数,是靠方法对路。
-
六大空间能力全拉满:商汤把空间智能拆成6个维度,si模型在每个维度都有硬提升:
1.
空间测量:能算物体长宽高、距离角度,误差比gpt-5小42%,工业质检、ar测量直接能用。
2.
更多内容加载中...请稍候...
本站只支持手机浏览器访问,若您看到此段落,代表章节内容加载失败,请关闭浏览器的阅读模式、畅读模式、小说模式,以及关闭广告屏蔽功能,或复制网址到其他浏览器阅读!
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!