上海人工智能实验室安远AI2025前沿人工智能风险管理框架报告52页

3.0 2025-08-16 130 35 17630 KB 52 页 VIP免费 PDF

侵权投诉

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

35 人已下载

立即下载

摘要：

前沿⼈⼯智能⻛险管理框架（1.0版）执⾏摘要我们对可信AGI的发展愿景当前⼈⼯智能（AI）技术正以前所未有的速度取得突破性进展，各类系统在众多领域已达到或超越⼈类⽔平。这些突破性进展为我们解决⼈类⾯临的重⼤挑战提供了历史机遇⸺从推动科学发现、提升医疗质量和⼈的健康福祉，到促进经济⽣产⼒的提升。但与此同时，快速发展的技术也带来了前所未有的⻛险。随着先进⼈⼯智能的研发与部署速度超越了关键安全措施的发展速度，建⽴完善的⻛险管理机制已成为全球科技发展的当务之急。作为我国⼈⼯智能领域的新型科研机构，上海⼈⼯智能实验室致⼒于打造“突破型、引领型、平台型”⼀体化的⼤型综合性研究基地，推动⼈⼯智能技术的安全有益发展。为积极应对技术发展带来的挑战，推动全球在⼈⼯智能安全领域的良性竞争，实验室提出了AI-45°平衡律1，作为实现可信AGI的发展路线图。前沿⼈⼯智能⻛险管理框架上海⼈⼯智能实验室联合安远AI2，正式发布《⼈⼯智能前沿⻛险管理框架（1.0版）》（以下简称“框架”），旨在为通⽤型⼈⼯智能（General-Purpose AI）模型研发者提供全⾯的⻛险管理指导⽅针，主动识别、评估、缓解和治理⼀系列对公共安全和国家安全构成威胁的严重⼈⼯智能⻛险，保障个体与社会的安全。本框架旨在为通⽤型⼈⼯智能模型研发者管理其通⽤型⼈⼯智能模型可能带来的严重⻛险提供指导。框架充分借鉴了安全攸关型⾏业的⻛险管理标准与最佳实践，涵盖⻛险管理的六⼤核⼼流程：⻛险识别、⻛险阈值、⻛险分析、⻛险评价、⻛险缓解及⻛险治理。 ● 1. ⻛险识别：本章节聚焦通⽤型⼈⼯智能模型可能引发的严重⻛险，明确四⼤核⼼⻛险类型：滥⽤⻛险、失控⻛险、意外⻛险及系统性⻛险。我们计划通过持续更新⻛险分类体系，动态应对未知与新兴⻛险。 ● 2. ⻛险阈值：本章节明确了⼀系列不可接受的⻛险结果（红线）以及触发更⾼级别安全保障措施的早期预警指标（⻩线）。我们针对可能威胁公共安全和国家安全的⼏个关键领域设定阈值，其中包括：⽹络攻击、⽣物威胁、⼤规模说服和有害操控，以及失控⻛险。 2 安远AI（Concordia AI）是⼀家AI安全与治理领域第三⽅研究和咨询机构，同时是⽬前该领域中国唯⼀的社会企业。 1 Yang, C. et al., "Towards AI-45° Law: A Roadmap to Trustwo

展开>> 收起<<

上海人工智能实验室安远AI2025前沿人工智能风险管理框架报告52页

共 52 页,预览5页

还剩47页未读，继续阅读