Anthropic推出Claude 3.5 Sonnet AI模型新功能：通过屏幕控制计算机

270次阅读

共计 896 个字符，预计需要花费 3 分钟才能阅读完成。

Anthropic 最新推出的 Claude 3.5 Sonnet AI 模型在公开测试版中引入了一项创新功能，该功能能够通过观察屏幕来控制计算机，包括移动光标、点击按钮和输入文本。这项名为“计算机使用”的新功能现已通过 API 提供，允许开发者指挥 Claude 像人类一样操作计算机，如视频中所示的 Mac 操作。

微软的 Copilot Vision 功能和 OpenAI 的 ChatGPT 桌面应用展示了他们的 AI 工具基于观察计算机屏幕所能执行的操作，而谷歌在其 Android 手机的 Gemini 应用中也具备类似能力。然而，他们尚未广泛发布能够像这样点击并执行任务的工具。Rabbit 曾承诺其 R1 设备具备类似功能，但尚未实现。

Anthropic 提醒，计算机使用功能仍处于实验阶段，可能存在“繁琐且容易出错”的问题。该公司表示：“我们提前发布计算机使用功能以收集开发者反馈，并预计该能力将随着时间的推移迅速改进。”

根据开发者说法：

人们经常使用计算机执行的许多操作（如拖动、缩放等），Claude 目前还无法尝试。Claude 观察屏幕的方式——通过截屏并拼接，而不是观察更细粒度的视频流——意味着它可能会错过短暂的动作或通知。

此外，这一版本的 Claude 显然已被指示避免接触社交媒体，采取了“监控 Claude 被要求参与选举相关活动的措施，以及引导 Claude 远离生成和发布社交媒体内容、注册网站域名或与政府网站互动等活动的系统。”

Anthropic 推出 Claude 3.5 Sonnet AI 模型新功能：通过屏幕控制计算机

与此同时，Anthropic 表示其新的 Claude 3.5 Sonnet 模型在多个基准测试中有所改进，并以其前代产品相同的价格和速度提供给客户：

更新后的 Claude 3.5 Sonnet 在行业基准测试中显示出广泛的改进，特别是在代理编码和工具使用任务中表现尤为突出。在编码方面，其在 SWE-bench Verified 上的表现从 33.4% 提升至 49.0%。这一得分高于所有公开可用的模型，包括 OpenAI o1-preview 等推理模型和专门为代理编码设计的系统。在代理工具使用任务 TAU-bench 中，其在零售领域的表现从 62.6% 提升至 69.2%，在更具挑战性的航空领域，其表现从 36.0% 提升至 46.0%。

正文完

发表至： AI应用大全

2024-10-23 02:07

0