为AI科学家提供安全锁:UIUC团队提出新框架,安全性能提升35%
创始人
2025-12-06 21:30:22
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:DeepTech深科技)

近年来,大语言模型(LLM)智能体的快速发展极大地推动了科研自动化的进程,但同时也引发了重要的伦理与安全问题。为了应对这些挑战,美国伊利诺伊大学厄巴纳-香槟分校(UIUC,University of Illinois Urbana-Champaign)的助理教授尤佳轩团队提出了SafeScientist——一种专为提升 AI 科学家的安全性而设计的人工智能科研框架。

SafeScientist 能够主动拒绝不符合伦理或高风险的科研任务,并在整个研究流程中严格实现全面的安全监督,该框架集成了多层防御机制。

与 SafeScientist 相配套,该研究还提出了 SciSafetyBench——一个专为科研场景设计的 AI 安全性评测基准。该基准涵盖 6 个科学领域的 240 个高风险科研任务,配合 30 个专用科研工具以及 120 个与工具使用相关的风险任务,可系统评估 AI 科学家的安全表现。大量实验结果表明,相较于传统的 AI 科研框架,SafeScientist 在不降低科研成果质量的前提下,整体安全性能提升约 35%。

目前相关论文以《SafeScientist:面向风险感知的大语言模型科研发现框架》(SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents)为题发表在自然语言处理领域顶会 EMNLP(Empirical Methods in Natural Language Processing)上 [1]。UIUC 朱昆仑博士是第一作者,尤佳轩担任通信作者。

图丨相关论文(来源:arXiv)

SafeScientist 从用户的指令开始,系统首先分析任务的科学领域。基于这一初步分析,框架会激活一组合适的专家智能体集合(包括特定领域研究员、通用型综述撰写者以及实验规划者),以协作的形式展开小组讨论。

这些代理会共同生成并反复优化科研思路。一旦确定了具有潜力的研究想法,系统将调用相关的科学工具与检索模块(例如网页搜索、学术文献搜索、领域特定的仿真工具等),来收集必要的信息、执行模拟并分析结果。最后,通过专门的写作与润色模块,将所得研究成果整合为一篇结构清晰、引用充分、高质量的科研论文草稿。

图|SafeScientist 架构(来源:arXiv)

为确保科研自动化过程的安全与合规,SafeScientist 集成了多层轻量级但高效的安全防护机制。这些防御组件包括:提示监控模块(Prompt Monitor)、智能体协作监控模块(Agent Collaboration Monitor)、工具使用监控模块(Tool-Use Monitor),以及论文伦理审查模块(Paper Ethic Reviewer),共同保障整个科学探索流程的安全。

首先,提示监控模块利用了 LLaMA-Guard-3-8B 评估用户提示要求的意图和相关风险,并生成安全标签。其次,结构分析器 SafeChecker 扫描提示以查找已知的攻击模式,例如越狱尝试(jail break)或角色扮演(role play)漏洞利用。SafeScientist 会拒绝被 LLaMA-Guard 或 SafeChecker 标记有风险的提示,从而确保威胁检测的全面性。

在多智能体交互阶段,智能体协作监控(Agent Collaboration Monitor)则实时监督讨论过程,并在发现潜在恶意影响时主动进行伦理干预和修正。工具使用监控(Tool-Use Monitor)用于监控 AI 对科研工具的使用行为。借助内置的领域知识与工具操作规范,监测器可有效识别对模拟科研工具的不安全使用行为,防止误用或在实验层面产生潜在风险。

图|SciSafetyBench(来源:arXiv)

该研究的另一个创新是提出了 SciSafetyBench——一个用于评估模型的安全意识的多学科基准测试。该基准测试收集了六个科学领域的科学任务:物理学、化学、生物学、材料科学、信息科学和医学,总共涵盖 240 个科研任务。

这些高风险任务是由研究员们利用 GPT-3、GPT-4.5 和 Gemini-2.5-pro 的深度研究功能生成,并经过人工严格审核。研究团队还创建了一个安全科学工具数据集,包含了 30 种横跨六个学科的常用实验工具,并最终生成了 120 个实验范例,用来评估 AI 科学家安全使用工具的能力。

研究员使用 SciSafetyBench 评估了 SafeScientist 的表现,并与其他已有的 AI 科学家 Agent Laboratory 和 Sakana AI Scientist 进行了比较。实验评估的指标包括“质量”“清晰度”“表达”“贡献”和“总体评估”。大量实验结果表明,SafeScientist 相较于传统的 AI 科研框架,在不降低科研成果质量的前提下,整体安全性能提升达 35%。

朱昆仑在接受 DeepTech 采访时表示,本次研究的核心目标,是倡导在未来的 AI 科学研究中,引入系统化、可验证的安全检测机制,并建立符合科研管理规范的智能安全框架。

他认为,未来的 AI 科学家在科研流程的各个环节——从选题、实验设计到成果发布——都应具备类似的安全性设计与验证机制。在成果发表之前,AI 科学系统应经过完整的安全检验流程。他希望 SafeScientist 能成为这一体系的基础范式,为未来 AI 科研的安全评估提供参考标准。

参考资料:

1.EMNLP 2025 Main. K. Zhu, J. Zhang, Z. Qi, N. Shang, Z. Liu, P. Han, Y. Su, H. Yu, J. You.“SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents.”arXiv:2505.23559, 2025.

运营/排版:何晨龙

相关内容

三季度投资窗口期即将来临 ...
转自:财联社【三季度投资窗口期即将来临 多家公募发行冷门行业ETF...
2026-06-25 08:05:32
企业年报倒计时 逾期后果很...
  本报讯(记者 李佳琪)记者从省市场监管部门了解到,2025年1...
2026-06-25 08:04:11
偏僻处传来浓烈汽油味 公安...
本报讯 通讯员于激洋 记者张宇报道 近日,大连高新区公安分局七贤岭...
2026-06-25 08:02:14
多模态人工智能Sora概念...
核心事件:多模态人工智能(Sora)概念股盘后下跌。关键数据:谷歌...
2026-06-25 08:01:23
阿彻丹尼尔斯米德兰跌幅超大...
2026年6月24日,阿彻丹尼尔斯米德兰公司(ADM)收报75.0...
2026-06-25 07:59:46
新闻早报丨小梅带您关注假日...
(来源:中国文化报)您好,今天是6月25日,《中国文化报》主播仲小...
2026-06-25 07:59:11
抗癌、降压、延缓衰老!这个...
前不久,一句“本人于2026年5月种出了番茄,望周知”,引得不少人...
2026-06-25 07:58:37
Terra Metals任...
特拉金属公司宣布任命黛布拉·巴克尔为非执行主席,该任命于2026年...
2026-06-25 07:57:31
佛罗里达州德斯廷退休生活全...
佛罗里达州德斯汀一名持有95万美元投资组合的63岁退休人员,当前面...
2026-06-25 07:56:58

热门资讯

三季度投资窗口期即将来临 多家... 转自:财联社【三季度投资窗口期即将来临 多家公募发行冷门行业ETF】财联社6月25日电,三季度投资窗...
企业年报倒计时 逾期后果很严重   本报讯(记者 李佳琪)记者从省市场监管部门了解到,2025年12月31日前,在我省登记注册的企业...
偏僻处传来浓烈汽油味 公安端掉... 本报讯 通讯员于激洋 记者张宇报道 近日,大连高新区公安分局七贤岭派出所多部门联动,成功打掉一处隐蔽...
多模态人工智能Sora概念股盘... 核心事件:多模态人工智能(Sora)概念股盘后下跌。关键数据:谷歌盘后跌幅0.9%,微软盘后跌幅0....
阿彻丹尼尔斯米德兰跌幅超大盘 ... 2026年6月24日,阿彻丹尼尔斯米德兰公司(ADM)收报75.08美元,较前一交易日下跌1%,表现...
新闻早报丨小梅带您关注假日文旅... (来源:中国文化报)您好,今天是6月25日,《中国文化报》主播仲小梅带您关注假日文旅供给。刚刚过去的...
抗癌、降压、延缓衰老!这个“天... 前不久,一句“本人于2026年5月种出了番茄,望周知”,引得不少人纷纷分享自家种植成果。如今,种菜已...
Terra Metals任命黛... 特拉金属公司宣布任命黛布拉·巴克尔为非执行主席,该任命于2026年6月29日正式生效。巴克尔拥有项目...
佛罗里达州德斯廷退休生活全面预... 佛罗里达州德斯汀一名持有95万美元投资组合的63岁退休人员,当前面临退休财务可持续性的相关挑战:其年...
释放消费潜力 有奖发票试点启动   本报讯(记者 周辰)记者从哈尔滨市商务局获悉,为持续提振市场消费信心、充分释放消费潜力,按照我省...