为AI科学家提供安全锁:UIUC团队提出新框架,安全性能提升35%
创始人
2025-12-06 21:30:22
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:DeepTech深科技)

近年来,大语言模型(LLM)智能体的快速发展极大地推动了科研自动化的进程,但同时也引发了重要的伦理与安全问题。为了应对这些挑战,美国伊利诺伊大学厄巴纳-香槟分校(UIUC,University of Illinois Urbana-Champaign)的助理教授尤佳轩团队提出了SafeScientist——一种专为提升 AI 科学家的安全性而设计的人工智能科研框架。

SafeScientist 能够主动拒绝不符合伦理或高风险的科研任务,并在整个研究流程中严格实现全面的安全监督,该框架集成了多层防御机制。

与 SafeScientist 相配套,该研究还提出了 SciSafetyBench——一个专为科研场景设计的 AI 安全性评测基准。该基准涵盖 6 个科学领域的 240 个高风险科研任务,配合 30 个专用科研工具以及 120 个与工具使用相关的风险任务,可系统评估 AI 科学家的安全表现。大量实验结果表明,相较于传统的 AI 科研框架,SafeScientist 在不降低科研成果质量的前提下,整体安全性能提升约 35%。

目前相关论文以《SafeScientist:面向风险感知的大语言模型科研发现框架》(SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents)为题发表在自然语言处理领域顶会 EMNLP(Empirical Methods in Natural Language Processing)上 [1]。UIUC 朱昆仑博士是第一作者,尤佳轩担任通信作者。

图丨相关论文(来源:arXiv)

SafeScientist 从用户的指令开始,系统首先分析任务的科学领域。基于这一初步分析,框架会激活一组合适的专家智能体集合(包括特定领域研究员、通用型综述撰写者以及实验规划者),以协作的形式展开小组讨论。

这些代理会共同生成并反复优化科研思路。一旦确定了具有潜力的研究想法,系统将调用相关的科学工具与检索模块(例如网页搜索、学术文献搜索、领域特定的仿真工具等),来收集必要的信息、执行模拟并分析结果。最后,通过专门的写作与润色模块,将所得研究成果整合为一篇结构清晰、引用充分、高质量的科研论文草稿。

图|SafeScientist 架构(来源:arXiv)

为确保科研自动化过程的安全与合规,SafeScientist 集成了多层轻量级但高效的安全防护机制。这些防御组件包括:提示监控模块(Prompt Monitor)、智能体协作监控模块(Agent Collaboration Monitor)、工具使用监控模块(Tool-Use Monitor),以及论文伦理审查模块(Paper Ethic Reviewer),共同保障整个科学探索流程的安全。

首先,提示监控模块利用了 LLaMA-Guard-3-8B 评估用户提示要求的意图和相关风险,并生成安全标签。其次,结构分析器 SafeChecker 扫描提示以查找已知的攻击模式,例如越狱尝试(jail break)或角色扮演(role play)漏洞利用。SafeScientist 会拒绝被 LLaMA-Guard 或 SafeChecker 标记有风险的提示,从而确保威胁检测的全面性。

在多智能体交互阶段,智能体协作监控(Agent Collaboration Monitor)则实时监督讨论过程,并在发现潜在恶意影响时主动进行伦理干预和修正。工具使用监控(Tool-Use Monitor)用于监控 AI 对科研工具的使用行为。借助内置的领域知识与工具操作规范,监测器可有效识别对模拟科研工具的不安全使用行为,防止误用或在实验层面产生潜在风险。

图|SciSafetyBench(来源:arXiv)

该研究的另一个创新是提出了 SciSafetyBench——一个用于评估模型的安全意识的多学科基准测试。该基准测试收集了六个科学领域的科学任务:物理学、化学、生物学、材料科学、信息科学和医学,总共涵盖 240 个科研任务。

这些高风险任务是由研究员们利用 GPT-3、GPT-4.5 和 Gemini-2.5-pro 的深度研究功能生成,并经过人工严格审核。研究团队还创建了一个安全科学工具数据集,包含了 30 种横跨六个学科的常用实验工具,并最终生成了 120 个实验范例,用来评估 AI 科学家安全使用工具的能力。

研究员使用 SciSafetyBench 评估了 SafeScientist 的表现,并与其他已有的 AI 科学家 Agent Laboratory 和 Sakana AI Scientist 进行了比较。实验评估的指标包括“质量”“清晰度”“表达”“贡献”和“总体评估”。大量实验结果表明,SafeScientist 相较于传统的 AI 科研框架,在不降低科研成果质量的前提下,整体安全性能提升达 35%。

朱昆仑在接受 DeepTech 采访时表示,本次研究的核心目标,是倡导在未来的 AI 科学研究中,引入系统化、可验证的安全检测机制,并建立符合科研管理规范的智能安全框架。

他认为,未来的 AI 科学家在科研流程的各个环节——从选题、实验设计到成果发布——都应具备类似的安全性设计与验证机制。在成果发表之前,AI 科学系统应经过完整的安全检验流程。他希望 SafeScientist 能成为这一体系的基础范式,为未来 AI 科研的安全评估提供参考标准。

参考资料:

1.EMNLP 2025 Main. K. Zhu, J. Zhang, Z. Qi, N. Shang, Z. Liu, P. Han, Y. Su, H. Yu, J. You.“SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents.”arXiv:2505.23559, 2025.

运营/排版:何晨龙

相关内容

热点问答|以色列为何承认索...
(来源:千龙网)新华社内罗毕/耶路撒冷12月28日电 热点问答|以...
2025-12-29 01:17:37
贺岁档元旦档电影片单发布
新华社北京12月28日电(记者邢拓)由国家电影局主办的贺岁档元旦档...
2025-12-29 01:12:47
规上工业企业利润累计增速连...
国家统计局27日发布数据显示,前11个月,规模以上工业企业利润同比...
2025-12-29 01:07:51
市民建议:优化车道减少拥堵
近日,市民致电晚报热线反映,夏都大街与南大街交会路口由东向西方向早...
2025-12-29 01:07:47
关于公布群众身边不正之风和...
为加强作风建设,深入纠治群众身边的不正之风和腐败问题、持续整治党员...
2025-12-29 01:07:42
湖南1700万元电影消费券...
  三湘都市报12月28日讯 今日,记者从湖南省电影局获悉,202...
2025-12-29 01:07:38
家政行业“员工制”来了,找...
如今,家政人员已经是很多家庭不可或缺的“帮手”,但是,依靠中介推荐...
2025-12-29 00:57:48
个人养老金怎么买更划算
临近2025年末,个人养老金缴存进入冲刺期。国家社会保险公共服务平...
2025-12-29 00:57:42
以色列“铁光束”激光防空系...
北京青年报2025-12-28 23:15:16当地时间12月28...
2025-12-29 00:52:44

热门资讯

热点问答|以色列为何承认索马里... (来源:千龙网)新华社内罗毕/耶路撒冷12月28日电 热点问答|以色列为何承认索马里兰以色列26日正...
贺岁档元旦档电影片单发布 新华社北京12月28日电(记者邢拓)由国家电影局主办的贺岁档元旦档电影片单发布会28日在京举行,贺岁...
规上工业企业利润累计增速连续4... 国家统计局27日发布数据显示,前11个月,规模以上工业企业利润同比增长0.1%,累计增速连续4个月保...
市民建议:优化车道减少拥堵 近日,市民致电晚报热线反映,夏都大街与南大街交会路口由东向西方向早晚高峰左转车流密集,一些从前营街驶...
关于公布群众身边不正之风和腐败... 为加强作风建设,深入纠治群众身边的不正之风和腐败问题、持续整治党员干部违规吃喝深化以案促改,现将监督...
湖南1700万元电影消费券等你...   三湘都市报12月28日讯 今日,记者从湖南省电影局获悉,2026年湖南省“悦动湖湘·光影未来”电...
家政行业“员工制”来了,找阿姨... 如今,家政人员已经是很多家庭不可或缺的“帮手”,但是,依靠中介推荐或者口口相传的传统家政服务业,却在...
个人养老金怎么买更划算 临近2025年末,个人养老金缴存进入冲刺期。国家社会保险公共服务平台查询的数据显示,截至12月15日...
以色列“铁光束”激光防空系统交... 北京青年报2025-12-28 23:15:16当地时间12月28日,以色列国防部宣布,首套具备实战...
2025年度泾县交旅融合发展成... (来源:市场星报) 12月26日,“我们的十四五·奋进的新泾县”系列主题发布2025年度泾县交旅融合...