来源|智源社区
● ● ●
人工智能领域最火热的研究焦点正从大模型带来的语言、感知和生成能力,进一步走向能够规划、调用工具、连续执行并影响真实世界的AI Agent。这个转折让一些问题变得尖锐:比如,智能体应当被怎样约束。
2026年6月12日,在北京举行的智源大会上,图灵奖得主惠特菲尔德·迪菲(Whitfield Diffie)现场作了题为《护AI 智能体之安|御 AI 智能体之险》的主旨演讲。他沿着现代密码学和信息安全的脉络,追问会行动的机器如何获得可信边界。
迪菲是现代公钥密码学的先驱。1976年,他与马丁·赫尔曼(Martin Hellman)共同发表《New Directions in Cryptography》,提出公钥密码与数字签名思想,为开放网络中的安全通信、身份认证和数字信任奠定基础。2015年,两人因此获得图灵奖。此后,迪菲还曾在Sun Microsystems、ICANN等机构从事安全与密码学相关工作,并长期参与密码学公共政策讨论。
“今天我想从两个词开始:AI,以及Agent。”
在报告中,迪菲没有急于给出技术方案,而是首先回到“人工智能”“Agent”“信息安全”等概念本身。他说,人工智能这个词从一开始就带有争议。我们可以讨论人的智能、动物的智能、机器的智能,甚至讨论更具想象力的智能形态;但真正困难的地方在于,“智能”并不是一个容易被定义的对象。它与意识、自主性、创造性、表达能力、主动性、学习能力乃至“心智”等概念彼此纠缠,这些词听起来都“有点像我们自己”。
“我们追求的到底是什么?”AI的经典领域包括问题求解、语言处理、博弈、机器控制、数学、视觉等。它们看起来都与人类智能有关,但计算机往往并不是用人类的方式完成这些任务。换言之,AI不是简单地把人脑复制到机器中,而是让机器以自己的方式完成复杂而有用的事情。
迪菲将实践中的AI概括为“让计算机完成复杂、有用、看起来像人类行为的事情”。
“计算机做这些事情的方式,常常与人类不同。”AI的目标未必是复制大脑,而是创造具有未知能力的机器。沿着这条线索,他区分了两种不同方向:一种是让机器做复杂而有用的事,至于它怎样做到,并不一定要模仿人;另一种则是反向工程人脑,试图理解人类如何完成认知任务。今天大会所面对的AI Agent浪潮,显然更多属于前者:我们正在让机器获得越来越多外部工具、上下文和执行接口,使它们在真实环境里完成任务。
问题因此也随之改变:当机器能力不断扩展,我们不能只问它是否“聪明”,还要问它是否具有主动性,以及这种主动性是否被清楚地约束。
“Agent与普通程序或聊天机器人不同。普通聊天机器人更多是在回应提问,而Agent具有主动性,会根据目标采取行动。”
的界定:具有主动性,并能够采取行动,而不只是回应提示。
在人工智能领域中,AI Agent并不是一个全新的想法,反而是一个非常古老的话题。人类对“会行动的机器”的想象,可以追溯到几个世纪以前。1770年的“机械土耳其人”国际象棋机器后来被证明并不真正具备自主性,因为里面藏着真人棋手;但这个故事恰恰说明,人们很早就渴望制造一种看似有判断、有行动能力的机器。
今天,不同之处在于,这一想象正在通过大模型、工具调用、自动化系统和联网软件变成工程现实。过去的“会行动的机器”可能只是机械表演,今天的AI Agent却能够读写文件、检索信息、调用API、运行代码,甚至在复杂工作流中连续规划和执行。它越有用,就越需要权限;它越接近真实工作,就越可能影响真实世界。
“因此,我们必须重新看待安全。”
迪菲将当前的软件安全概括为一种“反馈式”的路径:先写程序,程序失败,再修补它。这种方式很像控制论意义上的反馈循环,依赖故障、攻击、补丁和再部署来逐步改善系统。他认为,这种方式仍是今天计算机安全的主流现实,但它难以提供足够高的保证。尤其当AI Agent开始以机器速度采取行动时,“先失败、再修补”的成本会变得更高。
面向AI Agent,真正值得追求的是更形式化的安全方法,让我们能在程序发布和运行之前,对其行为边界获得更强的确信。也就是说,安全不应只是在事故之后加一层补丁,而应在系统设计阶段就回答:这个Agent能看到什么?能调用什么?能修改什么?出现异常时如何被限制?它与其他程序、用户和数据之间的边界在哪里?
密码学是信息安全中“最成熟”的部分之一。无论是美国的AES,还是中国的SM4,优秀的密码系统往往可以稳定使用多年。原因之一在于,密码算法通常相对小巧,可以被深入研究、分析和验证。一个对称加密算法可以在很少的代码中实现,其安全性虽然仍然依赖数学假设和工程细节,却能够被社区反复审查。
但现实世界中的软件并非如此。编译器、操作系统、应用程序,以及未来大量运行的AI Agent,规模远大于传统密码算法,也远超人类逐行验证的能力。安全难题不再只是证明一个小算法是否稳固,而是理解庞大软件系统在无数状态、权限、输入和交互中的行为。
迪菲因而提出一个重要判断:我们期待AI自身能完成这类复杂验证与测试工作。AI可以在发布前更充分地寻找漏洞、生成测试、探索边界条件,甚至辅助形式化验证。换句话说,AI不只是安全的新挑战,也可能成为安全工程的新工具。
认为AI能够显著改善发布前测试,但发布后的补丁窗口仍然危险。
然而,迪菲也提醒,AI能改善发布前的测试,却不能完全解决发布后的安全问题。在软件更新世界里,攻击者会逆向分析补丁,用户往往需要数天、数周甚至数月才完成安装,而未打补丁的系统会成为攻击窗口。这个问题并不新鲜,至少可以追溯到20世纪40年代;AI Agent只是把它放大到了更高速度、更高权限、更高复杂度的环境中。
AI Agent的风险并不神秘,它首先继承了所有传统软件的风险。它们仍然是进程,仍然运行在操作系统中,仍然访问文件、网络、内存、凭证和外部服务。不同的是,它们的行为更难以预测,任务链条更长,可能接触的资源更多,也更容易被人类赋予“替我完成事情”的授权。
“AI Agent本质上仍然是计算过程。保护它们,需要我们保护所有计算过程所需要的机制。”
那么,应该如何防范AI Agent本身造成风险?迪菲特别强调了Confinement,即约束与隔离:我们必须保证Agent只能访问被允许访问的资源,只能在授权边界内读取、调用和修改。这一点在现有编程实践中仍然远远不够。
如果说传统软件安全关注的是“不要被外部攻击者攻破”,那么AI Agent安全还必须追问另一个问题:当Agent被赋予目标、工具和权限后,它是否可能以我们不希望的方式完成任务?它是否会读取不该读取的数据?是否会调用不该调用的接口?是否会把局部目标推进到越界的行动?因此,约束不是事后的补救,而应成为智能体系统的基础设计。迪菲借机器人伦理的经典想象提醒听众:机器可以服从人类命令,也可以保护自身运行,但前提应是不越过更高层级的法律、规则与安全边界。
AI Agent的安全核心之一,是保证其只能访问被授权的资源。
计算与思考未必是同一件事,但在我们已知的事物中,计算比任何东西都更接近思考。这个判断并非要把机器简单等同于人,而是提醒我们,计算系统正在越来越深地进入那些过去只属于人类判断和行动的领域。
因此,迪菲将21世纪最重要的问题之一,指向人类与机器以及其他非人类“智能”之间的互动。我们应该如何向机器分配任务?在多大程度上信任机器的输出?如何限制机器的行动?如何在人类便利与系统安全之间建立制度化的平衡?这些问题不只是AI技术问题,也是重要的社会问题。
21世纪最重要的问题之一。
面对“机器智能会不会统治世界”这个问题,迪菲没有给出简单的“是”或“否”。他提醒说,机器未必会以战争或冲突的形式与人类对立;更现实的情形是,人们会不断把事务交给更高效的系统处理,并逐渐接受机器在越来越多社会与技术系统中承担运行角色。到大约2050年,机器智能可能包办大量事务。真正需要思考的是,在这一过程发生之前,我们是否已经建立足够可靠的边界、规则和安全机制。
报告结尾处,迪菲以犀利方式提醒听众思考机器智能扩展后的治理问题。迪菲:“机器智能会统治世界吗?当然!人类喜欢让别人代劳,到2050年前后,机器智能将包办一切,并成为真正掌控世界运行的主角。”
现场对话
Q:密码学和现代AI系统之间的相似点和区别是什么?
A:密码学是一门严谨的学科,需要明确的威胁模型和形式化证明。我们如今达到的形式化研究其实在上个世纪就已经开始。许多数学家都对密码学感兴趣,希望有安全的密码学系统,这是我们当时的兴趣。Cook和Karp他们也获得了图灵奖,当时主要的问题是复杂性的原理是绝非易事。一般来说,对于简单的工作,比如计算机领域的加法器已经相当完善了,我们也在思考来建立一些函数系统,以及递归函数理论也都非常成功,我们现在也有NP复杂性等等,可以验证的是密码学理论非常难,需要有非常完善的密码系统和解密系统。
Q:对于现代的AI系统,我们是否有非常严谨的理论基础来验证其操作模式?
A:从某种程度上说,我们希望通用人工智能能够胜任任何事情。所以我们需要写下关于它的规格以及看它是否能够符合未来的规格,我们要先写出一个规格,这是非常务实的第一步。有些时候,我们觉得对于大语言模型和AI容易出现幻觉,我们希望解决幻觉的问题。现在的AI系统是基于概率的程序,但是安全规则是非常严格的。我们一直在竭尽全力来做密码学,希望让一些系统能够具有一定灵活度,但是有些时候也并不是面面俱到。
Q:公钥密码学的成功不仅仅因为数学,还因为协议、部署实践以及标准制定等工作,您觉得我们应该如何建立大模型安全的基础设施?
A:我们花了几十年时间建立密码系统,并且制定了相关的协议,并且可以在互联网上交付这种密码技术。如果现在重新做,在未来的几年里,对密码学也会有新的革新,比如通过量子计算会威胁到密码系统,在70年代我们就已经建立了这些早先的密码系统,我们要作出非常大的变革才可以进行大的革新,所以会有密码学领域新的标准等等。同样,我们在未来几年里会面对AI系统,我们需要逐渐理解它们,我相信它们也会不断理解我们,相互加深彼此的理解。