新研究揭示Anthropic的计算机交互模式的优势与局限

72次阅读
没有评论

共计 1297 个字符,预计需要花费 4 分钟才能阅读完成。

2024 年 11 月 20 日 下午 3:23

新研究揭示 Anthropic 的计算机交互模式的优势与局限

自 Anthropic 于 10 月为 Claude 推出“计算机使用”功能以来,人们对于 AI 代理在模仿人类交互方面的能力充满了期待。新加坡国立大学 Show Lab 的一项新研究概述了当前这一代图形用户界面(GUI)代理的预期表现。

Claude 是首个能够通过人类使用的相同界面与设备进行交互的前沿模型。该模型通过访问桌面截图并触发键盘和鼠标操作来实现交互。这一功能承诺使用户能够通过简单的指令自动化任务,而无需应用程序的 API 访问权限。

研究人员在多种任务上测试了 Claude,包括网页搜索、工作流程完成、办公效率和视频游戏。网页搜索任务涉及导航和网站交互,如搜索、购买商品或订阅新闻服务。工作流程任务涉及多应用程序交互,例如从网站提取信息并插入电子表格。办公效率任务测试代理执行常见操作的能力,如格式化文档、发送电子邮件和创建演示文稿。视频游戏任务评估代理执行需要理解游戏逻辑和规划行动的多步骤任务的能力。

每项任务测试模型在三个维度上的能力:规划、行动和批评。首先,模型必须制定一个连贯的计划来完成任务。然后,它必须能够通过将每个步骤转化为行动来执行计划,例如打开浏览器、点击元素和输入文本。最后,批评元素确定模型是否能够评估其在完成任务中的进展和成功。模型应能识别过程中的错误并调整方向。如果任务不可能完成,它应给出合理的解释。

总体而言,Claude 在执行复杂任务方面表现出色。它能够推理和规划完成任务所需的多步骤,执行行动并在每一步评估其进展。它还能协调不同应用程序之间的操作,例如从网页复制信息并粘贴到电子表格中。此外,在某些情况下,它在任务结束时重新审视结果,以确保一切与目标一致。

然而,它也容易犯一些普通用户很容易避免的小错误。例如,在一个任务中,模型未能完成订阅,因为它没有向下滚动网页找到相应的按钮。在其他情况下,它在非常简单和明确的任务上失败,如选择和替换文本或将项目符号改为数字。此外,模型要么没有意识到其错误,要么对为何无法实现预期目标做出了错误的假设。

根据研究人员的说法,模型对其进展的误判突显了“模型自我评估机制的缺陷”,并表明“完全解决这一问题可能仍需要改进 GUI 代理框架,例如内置的严格批评模块。”从结果来看,很明显 GUI 代理无法复制人类使用计算机的所有基本细微差别。

通过基本文本描述实现任务自动化的承诺非常吸引人。但至少目前,这项技术尚未准备好大规模部署。模型的行为不稳定,可能导致不可预测的结果,这在敏感应用中可能产生破坏性后果。通过为人类设计的界面执行操作也不是通过 API 完成任务的最快方式。

关于赋予大型语言模型(LLMs)鼠标和键盘控制权的安全风险,我们还有很多需要了解的地方。例如,一项研究表明,网络代理很容易成为人类容易忽视的对抗性攻击的受害者。

大规模自动化任务仍然需要强大的基础设施,包括可以安全连接并大规模提供服务的 API 和微服务。然而,像 Claude 计算机使用这样的工具可以帮助产品团队在不投资开发新功能或服务的情况下,探索和迭代不同的自动化任务解决方案。一旦找到可行的解决方案,团队可以专注于开发高效可靠的代码和组件以实现交付。

正文完
 0
admin-gah
版权声明:本文于2024-11-21转载自VentureBeat,共计1297字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码