Nature | ApdativeNN:建模类人自适应感知机制,突破机器视觉「不可能三角」
创始人
2025-11-28 12:35:54
0

(来源:机器之心)

视觉是人类理解复杂物理世界的重要方式。让计算机具备视觉感知与认知的能力,是人工智能的主要研究问题之一,对多模态基础模型、具身智能、医疗 AI 等重要领域具有关键支撑作用。过去几十年间,计算机视觉取得了显著突破,已在图像识别、目标检测、多模态理解等多个任务上接近甚至超越人类专家水平。然而,当前的高精度模型在实际落地中常面临较大挑战:它们的推理过程往往需要激活上亿参数来处理高分辨率图像或视频、以解决复杂和挑战性的视觉问题,导致功耗、存储需求和响应时延急剧上升。这一瓶颈使得它们难以部署在算力、能耗、存储等资源高度受限的实际系统中(如机器人、自动驾驶、移动设备或边缘终端等),甚至在医疗、交通等场景下由于延迟决策危害生命安全。另一方面,大型模型庞大的推理能耗在也带来了大规模部署的环境可持续性问题。

上述挑战的一个重要原因在于现有视觉模型普遍采用了全局表征学习范式:一次性并行处理整幅图像或视频的所有像素、提取全部对应特征,再应用于具体任务。这种 “全局并行计算” 范式使得模型计算复杂度随输入尺寸呈至少平方或立方增长,逐渐形成了一个日益严峻的能效瓶颈:信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理,三者难以同时满足。这一挑战正在成为制约视觉智能走向大规模、可部署落地、低碳环保的公认难题。

人类视觉系统为突破上述瓶颈提供了重要启示:在观察复杂环境时,人眼不会一次性处理全部视觉信息,而是通过一系列 “注视” 动作主动、选择性地采样关键区域,以小范围高分辨率的感知逐步拼接出对物理世界中有用信息的认知。这种先进的机制能在庞杂的信息流中快速筛取要点,大幅降低计算开销,使得人类高度复杂的视觉系统即便在资源受限的前提下依然能够高效、快速运行。无论外界场景多么复杂,人类视觉的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在 2015 年,LeCun, Bengio, Hinton 便在《Nature》综述论文 “Deep Learning” 中指出,未来的 AI 视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来,这一方向仍缺乏系统性研究。

图2 人类视觉系统的主动自适应感知策略

2025 年 11 月,清华大学自动化系宋士吉、黄高团队在《自然・机器智能》(Nature Machine Intelligence)上发表了论文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》 (模拟人类自适应视觉,实现高效灵活的机器视觉感知)。该研究提出了 AdaptiveNN 架构,通过借鉴人类 “主动自适应视觉” 的机制,将视觉感知建模为由粗到精的最优序贯决策问题:逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止观察。在理论上,该研究通过结合表征学习与自奖励强化学习,给出了 AdaptiveNN 所面临的离散 - 连续混合优化问题的无需额外监督的端到端求解方法。在涵盖 9 类任务的广泛实验中,AdaptiveNN 在保持精度的同时实现了最高 28 倍的推理成本降低,可在线动态调整其行为以适配不同任务需求与算力约束,同时,其基于注视路径的推理机制显著提升了可解释性。AdaptiveNN 展现出构建高效、灵活且可解释的计算机视觉新范式的潜力。另一方面,AdaptiveNN 的感知行为在多项测试中与人类接近,也为未来探索人类视觉认知机制的关键问题提供了新的见解和研究工具。

  • 论文标题:Emulating human-like adaptive vision for efficient and flexible machine visual perception

  • 论文链接:https://www.nature.com/articles/s42256-025-01130-7

AdaptiveNN:类人主动感知架构

AdaptiveNN 将视觉感知建模为一个多步序贯决策过程,而非传统的“全图并行处理”。模型在一个视觉环境 (例如图像或视频帧)中,依次在若干感兴趣区域  上进行“注视”,逐步积累信息形成内部视觉表征s_t,并动态决定何时结束观察。在第 t 步,Vision Agent 基于当前视觉状态 s_t 评估任务完成度,若信息不足,则通过策略网络 π 选择下一次注视位置 。每个选定的注视区域由表征网络 提取判别性特征,不断更新视觉表征用于后续决策。AdaptiveNN 的整体框架模拟了人类从全局到局部、从粗到细的视觉策略:模型先快速扫视建立低分辨率初始状态,再通过一系列精细注视捕获关键信息。当任务需求满足时,感知过程自动终止。

借助这一机制,AdaptiveNN 能够在保证高精度的同时显著降低计算量,实现“看得清,也看得省”。它使神经网络具备了类人式的主动感知,从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。

值得注意的是,AdaptiveNN 在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种类型的任务(如纯视觉感知、视觉-语言多模态联合建模等)。

图3 AdaptiveNN的网络架构和推理过程

理论创新:自激励强化学习驱动的主动感知行为学习

AdaptiveNN 的训练过程同时涉及连续变量(如从注视区域中提取特征)与离散变量(如决定下一次注视位置)的优化,传统反向传播算法难以直接处理这一混合问题。为此,研究团队在理论上提出了面向离散 - 连续混合优化问题的端到端求解方法,使 AdaptiveNN 能够在统一框架下简单易行地完成整体训练。具体而言,从期望优化目标出发,对整体损失函数 L(θ) 进行分解,AdaptiveNN 的端到端优化过程可自然地分解为两部分

其中第一项为表征学习目标(representation learning),对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标(self-rewarding reinforcement learning),对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了 AdaptiveNN 的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一

实验验证:高效视觉感知,类人视觉行为

  • 性能提升显著:在使用相同主干网络(如 DeiT-S、ResNet-50)的情况下,AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分别以 2.86 GFLOPs 与 3.37 GFLOPs 的平均计算量,取得与传统静态模型相当甚至更优的准确率(81.6% / 79.1%),实现了 5.4× 与 3.6× 的计算节省。

  • 可解释性增强:AdaptiveNN 的注视轨迹自动聚焦于类别判别性区域,例如动物的头部、乐器的关键结构、咖啡机的旋钮与喷嘴等。当目标较小或远离摄像机时,模型会自适应地延长观察序列,主动调整注视步数以获得更精确的判断。这种 “由粗到细、按需注视” 的策略,与人类视觉的逐步注视过程高度一致。

为了进一步验证 AdaptiveNN 的泛化与精细感知能力,研究团队在六个细粒度视觉识别任务(CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft)上进行了系统评估。

  • AdaptiveNN 在保持精度基本不变甚至略有提升的情况下,实现了 5.8×–8.2× 的计算量节省,显著超越传统静态视觉模型的性能–能效上限。

  • 通过可视化(Fig. A1b–A1e),可以看到模型自发聚焦于任务判别性区域 —— 如鸟类的喙部、犬类的面部、汽车的灯组与航空器的螺旋桨 —— 而无需任何显式的定位监督。

AdaptiveNN 在空间注视位置任务难度判断两个层面,都展现出与人类视觉高度一致的自适应行为。定量结果表明,无论是 “看哪里”、还是 “觉得什么难”,模型的感知策略都与人类极为相似。在 “视觉图灵测试” 中,人类受试者几乎无法区分模型与真实人类的凝视轨迹。

更值得关注的是,这一成果对认知科学的研究具有启发意义。AdaptiveNN 的结果不仅为理解人类视觉行为的关键认知科学问题(例如 “视觉能力的形成究竟源于先天机制还是后天学习”)提供了新的启发,也展示了其作为一种通用计算模型的潜力。未来,AdaptiveNN 有望用于模拟和检验人类的注意分配、感知学习、以及复杂任务中的视觉决策机制,为将来认知科学方面的研究提供了潜在的定量工具。

从视觉感知到迈向高效具身推理

在实验验证中,研究团队进一步将 AdaptiveNN 应用于具身智能的基础模型(视觉 - 语言 - 行为模型,VLA)上结果表明,该框架在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算开销大幅降低 4.4-5.9 倍。这一成果为解决具身智能系统长期面临的效率瓶颈提供了新的思路与技术路径。

清华大学自动化系博士生王语霖、乐洋、乐阳为论文共同第一作者,宋士吉教授与黄高副教授为共同通讯作者。

相关内容

【投融资动态】优甜生物天使...
证券之星消息,根据天眼查APP于12月18日公布的信息整理,溧阳市...
2025-12-20 23:24:01
【投融资动态】模态跃迁Pr...
证券之星消息,根据天眼查APP于12月18日公布的信息整理,武汉模...
2025-12-20 23:24:00
三部门出手整治拒收人民币现...
“郑州新闻广播”优秀微刊推荐 拒收现金?三部门发文整治 尽管“拒...
2025-12-20 23:23:59
【投融资动态】Switch...
证券之星消息,根据天眼查APP于12月17日公布的信息整理,卧安机...
2025-12-20 23:23:52
身家10亿美元!美媒:预计...
12月20日消息,12月20日,据美国媒体报道,在詹姆斯成为第一位...
2025-12-20 23:23:44
原创 ...
中美休战结束?美方悍然启动111亿美元对台军售,中方随即取消大量美...
2025-12-20 23:23:36
谷歌CEO「劈柴」亲自下场...
新智元报道 编辑:元宇 【新智元导读】当算力成为AI时代的「新石...
2025-12-20 23:23:02
OpenAI,65倍,83...
SpaceX将IPO的热度还没过,OpenAI又整了个大活: 计划...
2025-12-20 23:22:42
冲上热搜!120多万卡宴只...
12月20日,“海南封关120多万卡宴只要60万”“海南封关40克...
2025-12-20 23:22:11

热门资讯

身家10亿美元!美媒:预计明年... 12月20日消息,12月20日,据美国媒体报道,在詹姆斯成为第一位财富突破10亿美元的NBA球员之后...
OpenAI,65倍,8300... SpaceX将IPO的热度还没过,OpenAI又整了个大活: 计划在新一轮融资中募集1000亿美元。...
12月沪牌拍卖最低成交价939... 新京报贝壳财经讯 12月20日,12月沪牌拍卖结果发布,其中个人额度合计拍卖总数3818个,参加拍卖...
新银保时代提速,中荷人寿与华夏... 来源:@华夏时报微博华夏时报记者 李明会 北京报道12月19日,华夏银行与中荷人寿正式签署战略合作协...
2025年流星雨迎来谢幕演出 ... 转自:新华社新华社天津12月20日电(记者 周润健)2025年最后一场流星雨——小熊座流星雨将于本月...
怎么强产业根基?这里有答案 转自:汕头发布市委十二届十次全会提出,要优化提升传统产业,培育壮大新兴产业和未来产业,大力提升产业平...
雨雪天老人要警惕人生最后一次骨... (来源:半月谈)转自:半月谈 【#雨雪天老人要警惕人生最...
上海浦东软件园发布低空经济产业... 12月19日,上海浦东软件园正式发布低空经济产业服务平台,为浦东低空经济发展按下“加速键”。上海浦东...
明星情侣今晚结婚,婚纱照曝光 知名演员金宇彬和申敏儿将于今天晚上(12月20日)举办婚礼,公司公开两人的婚纱照,申敏儿一袭白裙,手...
视频|明天冬至,颐和园十七孔桥... 颐和园“金光穿洞”的景象会出现在每年冬至前后,落日的余晖恰好照射在十七孔桥所有桥洞的侧壁上,金灿灿的...