235B参数也没用!港中文等发布7模态数据集,专测顶级VLM的感知盲区
创始人
2026-07-03 21:37:59
0

(来源:新智元)

新智元报道  

【新智元导读】当下的多模态大模型,在Demo里能对着照片侃侃而谈,可一旦离开RGB画面,面对热成像、深度、毫米波这些真实世界里随处可见的信号,就集体「失明」。港中文AIoT 实验室联合UIUC、哥伦比亚大学与匹兹堡大学,用一个包含64,267个七模态同步样本的数据集CUHK-X,第一次系统地把这条「看得见却读不懂」的能力断崖量化了出来。最扎心的结论是,把模型参数堆到235B,照样救不回来。该工作已被ACM MobiSys 2026录用。

过去两年,VLM(视觉语言模型)的进步几乎都写在RGB图像上。给它一张照片,它能描述、能问答、能推理,看上去无所不能。

但把它放进真实的居家、养老或医疗场景,故事立刻变了样。夜里光线不足、被家具遮挡、出于隐私不能上摄像头,这些恰恰是日常监测最常见的工况,也恰恰是RGB最不擅长的地方。真正要扛事的,是热成像、深度、毫米波雷达、IMU这些非RGB模态。

问题在于,模型在这些模态上的表现,和它在RGB上的光鲜形成了刺眼的反差。根子也很清楚,训练和评测它们的数据长期是缺的。现有的人类活动识别(HAR)数据集绝大多数只给到粗粒度的 ⟨数据, 标签⟩,比如一条「跌倒」、一条「睡觉」,既没有连贯的语义描述,也不覆盖多模态。模型自然学不会「看懂」,更谈不上「读懂」。

三个能力台阶

要把这件事讲清楚,得先把「看懂人」拆成三个递进的台阶。

第一阶是识别(HAR),回答「这是什么动作」,本质是分类。

第二阶是理解(HAU),要求模型用自然语言描述一段活动序列,并判断当时的情境状态,比如是放松、平静还是匆忙。

第三阶是推理(HARn),在看完前序动作后,推断行为意图并预测下一步最可能发生什么。

举个例子。看到一个人「洗脸、刷牙、梳头」,识别只需要逐个贴标签;理解要能把它串成「一段晨间洗漱」;而推理则要据此判断「接下来他大概率要出门」。越往上走,越考验模型对上下文和因果的把握,也越接近智慧医疗、居家养老真正需要的能力。例如在阿尔茨海默病照护中,对日常行为的连续理解与预判,正是及时干预的关键依据。

图1 CUHK-X 在多房间真实家居环境中同步采集七种传感模态,并面向识别(HAR)、理解(HAU)与推理(HARn)三类任务统一建模。

CUHK-X

先有「真值」再采数据

针对这条断崖,CUHK-X 给出的答案是一个面向HAR、HAU、HARn三类任务的大规模多模态数据集与基准。它包含64,267个活动样本,覆盖7种同步模态、40种日常动作和30名参与者。

论文链接:https://arxiv.org/abs/2512.07136

项目主页 https://openaiotlab.github.io/CUHK-X/

代码链接 https://github.com/openaiotlab/CUHK-X

更关键的是它「反着来」的采集逻辑。一种偷懒的做法是把若干单模态数据集的粗标签拼到一起,再让LLM自动编描述。但这样极易制造时空矛盾,比如把「刷牙」和「吃饭」硬塞进同一个场景,可两者本就发生在不同房间、不同时段,逻辑上根本说不通。

CUHK-X反其道而行,采用了「先有真值」(Ground-Truth-First)的策略。它先用LLM把同类或跨类动作逻辑串联成连贯的生活场景描述(如把洗脸、刷牙、梳头、擦手、穿衣组织成完整的晨间场景),再对描述做语言风格扩展,并经四位研究生级标注员按物理可行性、场景一致性、时间因果与常识约束四个维度人工把关,最后才让参与者理解描述、自然表演,按描述去采真实数据。如此得到的 ⟨数据, 描述⟩ 配对,天然时空对齐、语义连贯。

在两个真实室内环境(客厅、厨房、卧室、浴室四类场景)中,CUHK-X用一套精心设计的传感器阵列同步记录七种模态。环境侧包括Goermicro Vzense NYX 650相机(同时输出RGB、深度、红外)、德州仪器IWR6843ISK毫米波雷达(60–64 GHz)和海康TB4117热成像相机(120×160);可穿戴侧是五个 WitMotion WT9011DCL-BT50 IMU,分别戴在双手腕、双脚踝和腰部;骨架数据则由MMPose从RGB与深度帧估计出17个3D关节点。30名参与者中男女比例为40%比60%,年龄20–23岁。据作者介绍,这是首个同时覆盖RGB、深度、热成像、红外、骨架、IMU、毫米波雷达七种模态、并配有丰富文本描述的大规模活动数据集。

三大基准六项任务

数据之外,CUHK-X 真正的杀伤力在于它的评测设计,六项任务几乎每一项都是冲着逼出模型短板去的。

HAR 基准下设 1 项任务,即 40类动作分类,检验各模态对识别模型的支撑力。HAU 基准下设 4 项任务,分别是描述比较(看模型生成的描述和真值语义有多接近)、上下文分析(判断动作执行时的情境状态)、动作序列重排(把打乱的动作还原成正确时序)和动作选择(从 40 个候选里挑出视频里真正发生的)。HARn 基准下设 1 项任务,即基于前序动作预测下一个最可能的动作,直击意图推理与因果推断。

被拉上测试台的,是 InternVL2.5-2B/8B、QwenVL2.5-3B/7B、VideoLLaVA-7B、VideoChatR1-7B 等一线 VLM;HAR 任务上还加入了 ResNet-50、PointNet、MotionBERT 等模态专用模型。为了看清「规模红利」,研究还额外评测了 Qwen-35B、QwenVL3-235B 和 Doubao-seed-2.0 等更大体量的模型。

四个反直觉的发现

跑完全套评测,CUHK-X 给出了几条相当扎心的结论。

发现一,模态之间存在明显的「鄙视链」,但弱模态并非没用。HAR 七模态平均识别准确率为 76.52%,视觉模态一骑绝尘:热成像拿到 92.57% 准确率、93.36% F1,RGB 与深度的 F1 分别为 91.28% 和 90.93%,骨架也有 79.08% 准确率。而 IMU 与毫米波雷达的独立准确率只有 45.52% 和 46.63%。判别力天然偏弱,但正是这两类模态,在遮挡、弱光和隐私敏感场景里提供着视觉模态给不了的互补价值。

发现二,参数越大不一定越强。模型规模实验显示,单纯堆参数并不能在所有任务和模态上普涨。最典型的是 QwenVL3-235B,在深度上下文分析任务上不升反降,从 0.422 直接掉到 0.286。即便是整体最强的 Doubao-seed-2.0,在同一任务上也只做到 0.552。换句话说,CUHK-X 抛出的难题,远没有被现有大模型解决。

发现三,会「推理」的模型,明显打得过会「描述」的模型。在 HARn 基准上,三种视觉模态的平均推理准确率达到 70.25%(最高 90.30%),其中 VideoChatR1-7B 这类推理模型显著领先于描述模型。前者能借助上下文理解和逻辑推断,把已观察到的动作和最可能的下一步关联起来;后者则常常被表面视觉线索带偏。

发现四,没有「全能选手」。在动作序列重排和动作选择这类任务上,呈现出强烈的模型-模态交互效应,没有任何单一模型能在所有模态上通吃。HAU 四项子任务的平均准确率只有 40.76%(最高也才 50.52%),描述比较任务上 VideoLLaVA-7B 拿到最佳 BERTScore F1(86.40%),但换一个模态、换一项任务,领先者又会易主。这种「测不出一个稳定赢家」的状态,恰恰说明了基准本身的区分度和挑战性。

对具身智能意味着什么

把这些发现拼起来,CUHK-X 其实是给整个具身智能社区提了个醒。当下 VLM 的强,很大程度上是「RGB 之强」;一旦进入真实物理世界那些绕不开的非 RGB 模态和复杂时序推理,能力短板就暴露无遗。而要补上这块短板,光靠把模型做大显然不够,得从数据和评测的根上重建。

按作者的规划,CUHK-X 接下来会沿两条线扩展。一是引入参与者间的交互和更长时间跨度的多步骤活动,提升行为复杂度;二是补充音频、触觉、心率、脑电等信号模态,并覆盖更多室内环境与更广年龄、运动能力的人群,增强泛化性与生态效度。同时,它也会作为标准化教学资源,支撑传感器融合、数据标注与多模态推理等方向的研究与教学。

对于一个想要真正「读懂人」的智能体来说,这块拼图,才刚刚开始拼。

论文信息

论文第一作者为香港中文大学博士生蒋思阳,香港中文大学博士后袁牧和香港中文大学博士生纪祥等共同参与。指导导师邢国良教授为 ACM、IEEE 会士,担任 CUHK AIoT 实验室主任,曾获美国 NSF CAREER Award 与香港中文大学杰出研究奖;共同通讯作者为邢国良教授与陈鸿凯研究助理教授(香港中文大学)。该工作由香港中文大学联合伊利诺伊大学厄巴纳-香槟分校、哥伦比亚大学与匹兹堡大学共同完成。

参考资料:

https://arxiv.org/abs/2512.07136

编辑:LRST

相关内容

写给股民们的九条建议
文  任泽平团队2024年924以来,力度空前的宏观政策与AI革命...
2026-07-04 00:37:55
特朗普要在美国独立日办世界...
(来源:杭州日报)据新华社报道,美国计划在7月4日纪念建国250周...
2026-07-04 00:37:50
13年前收礼被偷拍的县长遭...
7月2日,据江西省纪委监委消息,江西宜春奉新县委原二级巡视员陈虹涉...
2026-07-04 00:37:44
甜辣苦交织,长沙冰淇淋刮起...
    在长沙一超市,市民正在选购冰淇淋。  “之前在网上刷到过这...
2026-07-04 00:37:39
解读辽宁“十五五”规划《纲...
(来源:东北新闻网)  服务业,一头牵动产业投资,一头承载居民消费...
2026-07-04 00:27:48
世赛获奖,最高奖励100万...
构建三级竞赛新格局  《办法》对标世界技能大赛、全国技能大赛办赛理...
2026-07-04 00:27:42
工银瑞信基金刘子豪离任优选...
2026年7月3日,工银瑞信基金管理有限公司发布公告称,旗下工银瑞...
2026-07-04 00:27:35
卖爆了!为能抢到一台中国空...
(来源:广州日报)中国出口,正在整体“换挡”将镜头从那一台被抢疯的...
2026-07-04 00:17:46
全国人大常委会副委员长何维...
7月2日至3日,全国人大常委会副委员长何维代表中方出席在德黑兰举行...
2026-07-04 00:17:39

热门资讯

写给股民们的九条建议 文  任泽平团队2024年924以来,力度空前的宏观政策与AI革命共振,点燃了“信心牛”行情。202...
特朗普要在美国独立日办世界最大... (来源:杭州日报)据新华社报道,美国计划在7月4日纪念建国250周年时,在首都华盛顿特区举办大规模烟...
13年前收礼被偷拍的县长遭查!... 7月2日,据江西省纪委监委消息,江西宜春奉新县委原二级巡视员陈虹涉嫌严重违纪违法,主动向组织交代问题...
甜辣苦交织,长沙冰淇淋刮起“猎...     在长沙一超市,市民正在选购冰淇淋。  “之前在网上刷到过这款,今天特意来尝尝,没想到辣味和冰...
解读辽宁“十五五”规划《纲要》... (来源:东北新闻网)  服务业,一头牵动产业投资,一头承载居民消费,最终沉淀于千家万户的烟火日常。 ...
世赛获奖,最高奖励100万元 构建三级竞赛新格局  《办法》对标世界技能大赛、全国技能大赛办赛理念和技术标准,明确构建“以世赛、国...
工银瑞信基金刘子豪离任优选对冲... 2026年7月3日,工银瑞信基金管理有限公司发布公告称,旗下工银瑞信优选对冲策略灵活配置混合型发起式...
卖爆了!为能抢到一台中国空调,... (来源:广州日报)中国出口,正在整体“换挡”将镜头从那一台被抢疯的空调身上拉远,你会看到一张更大的牌...
全国人大常委会副委员长何维代表... 7月2日至3日,全国人大常委会副委员长何维代表中方出席在德黑兰举行的伊朗已故最高领袖哈梅内伊葬礼。伊...
快来投票!“贯彻落实公平竞争审... (来源:上观新闻)为深入贯彻落实党中央、国务院决策部署,总结和展示《公平竞争审查条例》施行以来各地市...