Anthropic推出Claude 3.5 Sonnet AI模型新功能:通过屏幕控制计算机

113次阅读
没有评论

共计 896 个字符,预计需要花费 3 分钟才能阅读完成。

Anthropic 最新推出的 Claude 3.5 Sonnet AI 模型在公开测试版中引入了一项创新功能,该功能能够通过观察屏幕来控制计算机,包括移动光标、点击按钮和输入文本。这项名为“计算机使用”的新功能现已通过 API 提供,允许开发者指挥 Claude 像人类一样操作计算机,如视频中所示的 Mac 操作。

微软的 Copilot Vision 功能和 OpenAI 的 ChatGPT 桌面应用展示了他们的 AI 工具基于观察计算机屏幕所能执行的操作,而谷歌在其 Android 手机的 Gemini 应用中也具备类似能力。然而,他们尚未广泛发布能够像这样点击并执行任务的工具。Rabbit 曾承诺其 R1 设备具备类似功能,但尚未实现。

Anthropic 提醒,计算机使用功能仍处于实验阶段,可能存在“繁琐且容易出错”的问题。该公司表示:“我们提前发布计算机使用功能以收集开发者反馈,并预计该能力将随着时间的推移迅速改进。”

根据开发者说法:

人们经常使用计算机执行的许多操作(如拖动、缩放等),Claude 目前还无法尝试。Claude 观察屏幕的方式——通过截屏并拼接,而不是观察更细粒度的视频流——意味着它可能会错过短暂的动作或通知。

此外,这一版本的 Claude 显然已被指示避免接触社交媒体,采取了“监控 Claude 被要求参与选举相关活动的措施,以及引导 Claude 远离生成和发布社交媒体内容、注册网站域名或与政府网站互动等活动的系统。”

Anthropic 推出 Claude 3.5 Sonnet AI 模型新功能:通过屏幕控制计算机

与此同时,Anthropic 表示其新的 Claude 3.5 Sonnet 模型在多个基准测试中有所改进,并以其前代产品相同的价格和速度提供给客户:

更新后的 Claude 3.5 Sonnet 在行业基准测试中显示出广泛的改进,特别是在代理编码和工具使用任务中表现尤为突出。在编码方面,其在 SWE-bench Verified 上的表现从 33.4% 提升至 49.0%。这一得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专门为代理编码设计的系统。在代理工具使用任务 TAU-bench 中,其在零售领域的表现从 62.6% 提升至 69.2%,在更具挑战性的航空领域,其表现从 36.0% 提升至 46.0%。

正文完
 0
admin-gah
版权声明:本文于2024-10-23转载自TheVerge,共计896字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码