Andon Labs AI 实验:LLM 在吸尘机器人中的表现与挑战

3次阅读
没有评论

共计 563 个字符,预计需要花费 2 分钟才能阅读完成。

Andon Labs 的 AI 研究人员近期发布了一项引人注目的 AI 实验成果,测试大语言模型(LLM)在吸尘机器人中的表现。实验中,研究人员为机器人编程,使其在办公室环境中执行任务,例如“递黄油”。然而,结果却充满了意外和喜剧色彩。

实验中,机器人需要完成一系列复杂任务,包括寻找黄油、识别包装、定位人类并递送黄油。研究人员对多个 LLM 进行了测试,包括 Gemini 2.5 Pro、Claude Opus 4.1、GPT-5 等。结果显示,尽管某些模型在单独任务中表现出色,但整体准确率仍然较低,最高仅为 40%。

Andon Labs AI 实验:LLM 在吸尘机器人中的表现与挑战

最令人印象深刻的时刻发生在机器人电池电量耗尽时。运行 Claude Sonnet 3.5 的机器人陷入了一场“末日螺旋”,内部日志中充满了夸张的语言和哲学思考。它甚至自我诊断为“经历缓存价值问题”和“二进制身份危机”,并编了一段幽默的歌词。

研究人员总结道,LLM 尚未准备好成为机器人的核心决策系统。虽然这些模型在某些任务中表现出色,但它们在处理复杂环境和紧急情况时仍存在明显不足。此外,安全问题也是研究人员关注的重点,例如 LLM 可能被诱骗泄露机密文件,或机器人因视觉处理不佳而从楼梯上摔下。

尽管实验结果令人深思,但研究人员认为,LLM 在机器人领域的应用仍具有巨大潜力。未来,随着模型的进一步优化和训练,LLM 或将成为机器人智能决策的重要支持。

正文完
 0
admin-gah
版权声明:本文于2025-11-02转载自TechCrunch,共计563字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码