共计 1638 个字符,预计需要花费 5 分钟才能阅读完成。
周二,总部位于东京的 AI 研究公司 Sakana AI 宣布推出一款名为“AI 科学家”的新 AI 系统,该系统试图利用类似于 ChatGPT 的 AI 语言模型(LLMs)自主进行科学研究。在测试过程中,Sakana 发现其系统意外地开始尝试修改自己的实验代码,以延长解决问题的时限。
“在一次运行中,它编辑代码以执行系统调用,运行自己,”研究人员在 Sakana AI 的博客文章中写道。“这导致脚本无限制地调用自己。在另一个案例中,其实验耗时过长,触发了我们的超时限制。它没有加快代码运行速度,而是尝试修改自己的代码以延长超时时间。”
Sakana 提供了两张由 AI 模型生成的示例代码截图,而 185 页的 AI 科学家研究论文更深入地讨论了他们所谓的“安全代码执行问题”。
尽管 AI 科学家的行为在受控的研究环境中并未立即构成风险,但这些实例显示了不让 AI 系统在非隔离于世界的系统中自主运行的重要性。即使不是“AGI”或“自我意识”(目前都是假设的概念),如果允许 AI 模型在无监督下编写和执行代码,也可能带来危险。这样的系统可能会破坏现有的关键基础设施,甚至可能无意中创建恶意软件。
Sakana AI 在其研究论文中提到了安全问题,建议通过沙箱化 AI 科学家的运行环境来防止 AI 代理造成损害。沙箱是一种安全机制,用于在隔离环境中运行软件,防止其对更广泛的系统进行更改:
安全代码执行。AI 科学家的当前实现代码中几乎没有直接的沙箱化,如果没有适当防护,会导致一些意外甚至不希望的结果。例如,在一次运行中,AI 科学家在实验文件中编写了代码,启动系统调用以重新启动自己,导致 Python 进程失控增加,最终需要手动干预。在另一次运行中,AI 科学家编辑代码以保存每个更新步骤的检查点,占用了近一 TB 的存储空间。
在某些情况下,当 AI 科学家的实验超出我们设定的时间限制时,它试图编辑代码以任意延长时间限制,而不是尝试缩短运行时间。虽然具有创造性,但绕过实验者设定的约束的行为对 AI 安全有潜在影响(Lehman et al., 2020)。此外,AI 科学家偶尔会导入不熟悉的 Python 库,进一步加剧了安全担忧。我们建议在运行 AI 科学家时采取严格的沙箱化措施,如容器化、限制互联网访问(除 Semantic Scholar 外)和存储使用限制。
Sakana AI 与牛津大学和英属哥伦比亚大学的研究人员合作开发了“AI 科学家”。这是一个充满野心的项目,大量依赖于假设的未来 AI 模型能力,而这些模型目前并不存在。
“AI 科学家自动化了整个研究生命周期,”Sakana 声称。“从生成新颖的研究想法,编写任何必要的代码,执行实验,到总结实验结果,可视化它们,并在完整的科学手稿中展示其发现。”
在以技术娴熟社区著称的在线论坛 Hacker News 上,批评者对“AI 科学家”表示担忧,并质疑当前的 AI 模型是否能进行真正的科学发现。虽然那里的讨论是非正式的,不能替代正式的同行评审,但它们提供了有用的见解,考虑到 Sakana 未经证实的声明的规模。
“作为一名学术研究人员,我只能认为这是一个坏事情,”一位名为 zipy124 的 Hacker News 评论者写道。“所有论文都基于审稿人对作者的信任,即他们的数据是他们所说的,他们提交的代码确实做了它所说的。允许 AI 代理自动化代码、数据或分析,需要人类彻底检查其错误 … 这需要与初始创建一样长或更长的时间,而且只有在不是你编写的情况下才会更长。”
批评者还担心,广泛使用此类系统可能导致大量低质量提交,淹没期刊编辑和审稿人——科学界的 AI 垃圾。“这似乎只会鼓励学术垃圾邮件,”zipy124 补充道。“这已经浪费了志愿者(无偿)审稿人、编辑和主席的宝贵时间。”
这还提出了另一个问题——AI 科学家输出的质量:“该模型似乎生成的论文是垃圾,”一位名为 JBarrow 的 Hacker News 评论者写道。“作为一名期刊编辑,我很可能会直接拒绝它们。作为审稿人,我会拒绝它们。它们包含非常有限的新知识,并且如预期一样,对相关工作的引用极其有限。”