阿西洛马AI原则：研究界为自己立规矩

概述

2017年1月8日，约1,000名AI研究者和思想领袖在加利福尼亚州太平洋丛林市的阿西洛马会议中心汇聚一堂——这与1975年生物学家汇聚讨论重组DNA技术安全规范的地点相同。本次会议由生命未来研究所（FLI）组织，联合创始人为MIT物理学家Max Tegmark，顾问团包括Stuart Russell、Nick Bostrom和Elon Musk等人。

会议成果是阿西洛马AI原则——23条指导原则，由超过1,200名AI研究者和公共知识分子签署，代表了首次关于有益AI发展的广泛科学共识声明。

23条原则

原则分为三大类：

研究议题（5条）

AI研究应服务于全人类利益，而非单纯追求利润
AI研究者应保持关于能力和局限性的健康沟通
安全研究投入应与能力研究投入同步增长
应鼓励而非压制失效模式研究
高度自主的AI系统在其操作环境中应保持安全

伦理与价值观（13条）

价值对齐：AI系统应被设计为目标与人类价值观对齐
透明度：AI不应欺骗人类关于其本质
责任：设计者对其可合理预见的滥用行为承担责任
隐私：AI不应侵犯个人隐私
自由与自主：AI不应损害人们的自主性或民主制度
共享利益：AI的经济收益应广泛分配
共同繁荣：AI能力应造福全人类，而非集中权力

长期议题（5条）

能力谨慎：递归自我改进应受到严格安全约束
公共利益：超级智能AI应服务于"广泛共享的伦理理想"
规避存在性风险：先进AI带来潜在的存在性风险，值得认真应对
防止颠覆：AI不应破坏合法的民主监督

签署者

签署者包括：史蒂芬·霍金、埃隆·马斯克（与OpenAI决裂之前）、Demis Hassabis（DeepMind）、杨立昆（Facebook AI）、约书亚·本吉奥（Mila）、杰弗里·辛顿（Google Brain），以及数百名知名学者。

值得注意的是，多位签署者在AI加速发展上拥有重大商业利益——这说明安全顾虑并不局限于局外人或批评者。

意义与批评

为何重要：

AI领域首次以集体形式正式承认自身的存在性风险
将"价值对齐"确立为合法的研究问题，而非科幻小说
创造了共同词汇（有益AI、存在性风险、对齐），塑造了此后话语
此后的文件——包括OpenAI章程、Anthropic宪法、欧盟AI法原则——均回响其语言

批评：

原则是自愿的、愿景性的且不可执行的
企业签署者仍继续不顾一切地加速能力竞赛
此后数年，正是那些签署者之间的竞争，破坏了合作精神
2017年原则未能预见语言模型的大规模冲击（ChatGPT五年后才出现）

阿西洛马原则最好被理解为：不是约束性规则，而是这个领域承认赌注的时刻——AI研究者第一次集体说"这件事的影响超出了我们的职业生涯"。