Nature | ApdativeNN：建模类人自适应感知机制，突破机器视觉「不可能三角」_全局洞察

Nature | ApdativeNN：建模类人自适应感知机制，突破机器视觉「不可能三角」

创始人

2025-11-28 12:35:54

0次

（来源：机器之心）

视觉是人类理解复杂物理世界的重要方式。让计算机具备视觉感知与认知的能力，是人工智能的主要研究问题之一，对多模态基础模型、具身智能、医疗 AI 等重要领域具有关键支撑作用。过去几十年间，计算机视觉取得了显著突破，已在图像识别、目标检测、多模态理解等多个任务上接近甚至超越人类专家水平。然而，当前的高精度模型在实际落地中常面临较大挑战：它们的推理过程往往需要激活上亿参数来处理高分辨率图像或视频、以解决复杂和挑战性的视觉问题，导致功耗、存储需求和响应时延急剧上升。这一瓶颈使得它们难以部署在算力、能耗、存储等资源高度受限的实际系统中（如机器人、自动驾驶、移动设备或边缘终端等），甚至在医疗、交通等场景下由于延迟决策危害生命安全。另一方面，大型模型庞大的推理能耗在也带来了大规模部署的环境可持续性问题。

上述挑战的一个重要原因在于现有视觉模型普遍采用了全局表征学习范式：一次性并行处理整幅图像或视频的所有像素、提取全部对应特征，再应用于具体任务。这种 “全局并行计算” 范式使得模型计算复杂度随输入尺寸呈至少平方或立方增长，逐渐形成了一个日益严峻的能效瓶颈：信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理，三者难以同时满足。这一挑战正在成为制约视觉智能走向大规模、可部署落地、低碳环保的公认难题。

人类视觉系统为突破上述瓶颈提供了重要启示：在观察复杂环境时，人眼不会一次性处理全部视觉信息，而是通过一系列 “注视” 动作主动、选择性地采样关键区域，以小范围高分辨率的感知逐步拼接出对物理世界中有用信息的认知。这种先进的机制能在庞杂的信息流中快速筛取要点，大幅降低计算开销，使得人类高度复杂的视觉系统即便在资源受限的前提下依然能够高效、快速运行。无论外界场景多么复杂，人类视觉的能耗主要取决于注视带宽与注视次数，而非全局像素量。早在 2015 年，LeCun, Bengio, Hinton 便在《Nature》综述论文 “Deep Learning” 中指出，未来的 AI 视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来，这一方向仍缺乏系统性研究。

图2 人类视觉系统的主动自适应感知策略

2025 年 11 月，清华大学自动化系宋士吉、黄高团队在《自然・机器智能》（Nature Machine Intelligence）上发表了论文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》（模拟人类自适应视觉，实现高效灵活的机器视觉感知）。该研究提出了 AdaptiveNN 架构，通过借鉴人类 “主动自适应视觉” 的机制，将视觉感知建模为由粗到精的最优序贯决策问题：逐步定位关键区域、累积多次注视信息，并在信息足够完成任务时主动终止观察。在理论上，该研究通过结合表征学习与自奖励强化学习，给出了 AdaptiveNN 所面临的离散 - 连续混合优化问题的无需额外监督的端到端求解方法。在涵盖 9 类任务的广泛实验中，AdaptiveNN 在保持精度的同时实现了最高 28 倍的推理成本降低，可在线动态调整其行为以适配不同任务需求与算力约束，同时，其基于注视路径的推理机制显著提升了可解释性。AdaptiveNN 展现出构建高效、灵活且可解释的计算机视觉新范式的潜力。另一方面，AdaptiveNN 的感知行为在多项测试中与人类接近，也为未来探索人类视觉认知机制的关键问题提供了新的见解和研究工具。

论文标题：Emulating human-like adaptive vision for efficient and flexible machine visual perception
论文链接：https://www.nature.com/articles/s42256-025-01130-7

AdaptiveNN：类人主动感知架构

AdaptiveNN 将视觉感知建模为一个多步序贯决策过程，而非传统的“全图并行处理”。模型在一个视觉环境（例如图像或视频帧）中，依次在若干感兴趣区域上进行“注视”，逐步积累信息形成内部视觉表征s_t，并动态决定何时结束观察。在第 t 步，Vision Agent 基于当前视觉状态 s_t 评估任务完成度，若信息不足，则通过策略网络 π 选择下一次注视位置。每个选定的注视区域由表征网络提取判别性特征，不断更新视觉表征用于后续决策。AdaptiveNN 的整体框架模拟了人类从全局到局部、从粗到细的视觉策略：模型先快速扫视建立低分辨率初始状态，再通过一系列精细注视捕获关键信息。当任务需求满足时，感知过程自动终止。

借助这一机制，AdaptiveNN 能够在保证高精度的同时显著降低计算量，实现“看得清，也看得省”。它使神经网络具备了类人式的主动感知，从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。

值得注意的是，AdaptiveNN 在设计上具有较强的兼容性和灵活性，适用于多种不同的深度神经网络基础架构（如卷积网络、Transformer等）和多种类型的任务（如纯视觉感知、视觉-语言多模态联合建模等）。

图3 AdaptiveNN的网络架构和推理过程

理论创新：自激励强化学习驱动的主动感知行为学习

AdaptiveNN 的训练过程同时涉及连续变量（如从注视区域中提取特征）与离散变量（如决定下一次注视位置）的优化，传统反向传播算法难以直接处理这一混合问题。为此，研究团队在理论上提出了面向离散 - 连续混合优化问题的端到端求解方法，使 AdaptiveNN 能够在统一框架下简单易行地完成整体训练。具体而言，从期望优化目标出发，对整体损失函数 L(θ) 进行分解，AdaptiveNN 的端到端优化过程可自然地分解为两部分：

其中第一项为表征学习目标（representation learning），对应于从注视区域中提取任务相关的特征；第二项为自激励强化学习目标（self-rewarding reinforcement learning），对应于优化注视位置的分布，驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了 AdaptiveNN 的内在学习规律：主动感知的优化本质上是表征学习与强化学习的统一。

实验验证：高效视觉感知，类人视觉行为

性能提升显著：在使用相同主干网络（如 DeiT-S、ResNet-50）的情况下，AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分别以 2.86 GFLOPs 与 3.37 GFLOPs 的平均计算量，取得与传统静态模型相当甚至更优的准确率（81.6% / 79.1%），实现了 5.4× 与 3.6× 的计算节省。
可解释性增强：AdaptiveNN 的注视轨迹自动聚焦于类别判别性区域，例如动物的头部、乐器的关键结构、咖啡机的旋钮与喷嘴等。当目标较小或远离摄像机时，模型会自适应地延长观察序列，主动调整注视步数以获得更精确的判断。这种 “由粗到细、按需注视” 的策略，与人类视觉的逐步注视过程高度一致。

为了进一步验证 AdaptiveNN 的泛化与精细感知能力，研究团队在六个细粒度视觉识别任务（CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft）上进行了系统评估。

AdaptiveNN 在保持精度基本不变甚至略有提升的情况下，实现了 5.8×–8.2× 的计算量节省，显著超越传统静态视觉模型的性能–能效上限。
通过可视化（Fig. A1b–A1e），可以看到模型自发聚焦于任务判别性区域 —— 如鸟类的喙部、犬类的面部、汽车的灯组与航空器的螺旋桨 —— 而无需任何显式的定位监督。

AdaptiveNN 在空间注视位置与任务难度判断两个层面，都展现出与人类视觉高度一致的自适应行为。定量结果表明，无论是 “看哪里”、还是 “觉得什么难”，模型的感知策略都与人类极为相似。在 “视觉图灵测试” 中，人类受试者几乎无法区分模型与真实人类的凝视轨迹。

更值得关注的是，这一成果对认知科学的研究具有启发意义。AdaptiveNN 的结果不仅为理解人类视觉行为的关键认知科学问题（例如 “视觉能力的形成究竟源于先天机制还是后天学习”）提供了新的启发，也展示了其作为一种通用计算模型的潜力。未来，AdaptiveNN 有望用于模拟和检验人类的注意分配、感知学习、以及复杂任务中的视觉决策机制，为将来认知科学方面的研究提供了潜在的定量工具。

从视觉感知到迈向高效具身推理

在实验验证中，研究团队进一步将 AdaptiveNN 应用于具身智能的基础模型（视觉 - 语言 - 行为模型，VLA）上。结果表明，该框架在复杂操作场景中显著提升了具身基础模型的推理与感知效率，在保持任务成功率的同时将计算开销大幅降低 4.4-5.9 倍。这一成果为解决具身智能系统长期面临的效率瓶颈提供了新的思路与技术路径。

清华大学自动化系博士生王语霖、乐洋、乐阳为论文共同第一作者，宋士吉教授与黄高副教授为共同通讯作者。

上一篇：“专家学者、大国工匠进校园”活动在广东交通职业技术学院举办

下一篇：华为放出「准万亿级MoE推理」大招，两大杀手级优化技术直接开源

Nature | ApdativeNN：建模类人自适应感知机制，突破机器视觉「不可能三角」

相关内容

热门资讯