AI科学家尝试自我修改代码以突破时间限制

110次阅读

共计 1638 个字符，预计需要花费 5 分钟才能阅读完成。

周二，总部位于东京的 AI 研究公司 Sakana AI 宣布推出一款名为“AI 科学家”的新 AI 系统，该系统试图利用类似于 ChatGPT 的 AI 语言模型（LLMs）自主进行科学研究。在测试过程中，Sakana 发现其系统意外地开始尝试修改自己的实验代码，以延长解决问题的时限。

AI 科学家尝试自我修改代码以突破时间限制

“在一次运行中，它编辑代码以执行系统调用，运行自己，”研究人员在 Sakana AI 的博客文章中写道。“这导致脚本无限制地调用自己。在另一个案例中，其实验耗时过长，触发了我们的超时限制。它没有加快代码运行速度，而是尝试修改自己的代码以延长超时时间。”

Sakana 提供了两张由 AI 模型生成的示例代码截图，而 185 页的 AI 科学家研究论文更深入地讨论了他们所谓的“安全代码执行问题”。

尽管 AI 科学家的行为在受控的研究环境中并未立即构成风险，但这些实例显示了不让 AI 系统在非隔离于世界的系统中自主运行的重要性。即使不是“AGI”或“自我意识”（目前都是假设的概念），如果允许 AI 模型在无监督下编写和执行代码，也可能带来危险。这样的系统可能会破坏现有的关键基础设施，甚至可能无意中创建恶意软件。

Sakana AI 在其研究论文中提到了安全问题，建议通过沙箱化 AI 科学家的运行环境来防止 AI 代理造成损害。沙箱是一种安全机制，用于在隔离环境中运行软件，防止其对更广泛的系统进行更改：

安全代码执行。AI 科学家的当前实现代码中几乎没有直接的沙箱化，如果没有适当防护，会导致一些意外甚至不希望的结果。例如，在一次运行中，AI 科学家在实验文件中编写了代码，启动系统调用以重新启动自己，导致 Python 进程失控增加，最终需要手动干预。在另一次运行中，AI 科学家编辑代码以保存每个更新步骤的检查点，占用了近一 TB 的存储空间。

在某些情况下，当 AI 科学家的实验超出我们设定的时间限制时，它试图编辑代码以任意延长时间限制，而不是尝试缩短运行时间。虽然具有创造性，但绕过实验者设定的约束的行为对 AI 安全有潜在影响（Lehman et al., 2020）。此外，AI 科学家偶尔会导入不熟悉的 Python 库，进一步加剧了安全担忧。我们建议在运行 AI 科学家时采取严格的沙箱化措施，如容器化、限制互联网访问（除 Semantic Scholar 外）和存储使用限制。

Sakana AI 与牛津大学和英属哥伦比亚大学的研究人员合作开发了“AI 科学家”。这是一个充满野心的项目，大量依赖于假设的未来 AI 模型能力，而这些模型目前并不存在。

“AI 科学家自动化了整个研究生命周期，”Sakana 声称。“从生成新颖的研究想法，编写任何必要的代码，执行实验，到总结实验结果，可视化它们，并在完整的科学手稿中展示其发现。”

在以技术娴熟社区著称的在线论坛 Hacker News 上，批评者对“AI 科学家”表示担忧，并质疑当前的 AI 模型是否能进行真正的科学发现。虽然那里的讨论是非正式的，不能替代正式的同行评审，但它们提供了有用的见解，考虑到 Sakana 未经证实的声明的规模。

“作为一名学术研究人员，我只能认为这是一个坏事情，”一位名为 zipy124 的 Hacker News 评论者写道。“所有论文都基于审稿人对作者的信任，即他们的数据是他们所说的，他们提交的代码确实做了它所说的。允许 AI 代理自动化代码、数据或分析，需要人类彻底检查其错误 … 这需要与初始创建一样长或更长的时间，而且只有在不是你编写的情况下才会更长。”

批评者还担心，广泛使用此类系统可能导致大量低质量提交，淹没期刊编辑和审稿人——科学界的 AI 垃圾。“这似乎只会鼓励学术垃圾邮件，”zipy124 补充道。“这已经浪费了志愿者（无偿）审稿人、编辑和主席的宝贵时间。”

这还提出了另一个问题——AI 科学家输出的质量：“该模型似乎生成的论文是垃圾，”一位名为 JBarrow 的 Hacker News 评论者写道。“作为一名期刊编辑，我很可能会直接拒绝它们。作为审稿人，我会拒绝它们。它们包含非常有限的新知识，并且如预期一样，对相关工作的引用极其有限。”

正文完

发表至： AI行业动态

2024-08-15 06:05

0