担心AI抢走远程工作？最新研究揭示：你目前仍安全

21次阅读

没有评论

共计 1412 个字符，预计需要花费 4 分钟才能阅读完成。

担心 AI 会抢走你的远程工作？一项最新研究带来了好消息：目前你仍然安全。研究人员在游戏开发、数据分析和视频动画等领域的远程自由职业项目上测试了人工智能。结果并不理想。

AI 搜索栏抽象图像

图片来源：Andriy Onufriyenko via Moment / Getty Images

ZDNET 关键要点

研究人员将真人已完成的工作任务交给人工智能执行。
与人类工作者相比，人工智能的表现一败涂地。
但人工智能正在变得越来越聪明。

关于人工智能的众多担忧之一是它将取代人类的工作。一项新研究表明，尽管这种担忧并非空穴来风，但可能被夸大了——至少目前如此。

为了衡量人工智能是否能像人类一样有效地完成项目，一组研究人员让多个 AI 系统执行了一系列工作项目。这些项目此前已由真实的远程自由职业者完成，涵盖游戏开发、产品设计、建筑、数据分析和视频动画等领域。

具体任务包括以下挑战：

为探索《世界幸福报告》数据构建一个交互式仪表板。
创建 3D 动画来展示新款无线耳机设计和充电盒的特点。
制作一部 2D 动画视频，宣传一家免费服务公司的产品。
根据现有的 PDF 设计，为一个集装箱房屋制定建筑平面图和 3D 模型。
开发一款酿造主题版本的“西瓜游戏”，玩家需要合并下落的物体以达到最高等级物品。
使用提供的功能和公式为一篇 IEEE 会议论文进行格式排版。

这些任务难度各异，由真人完成时花费了 1 万美元，耗时超过 100 小时。为了衡量 AI 自动化与人类远程工作的对比情况，研究人员建立了一个名为远程劳动力指数的基准。

正如研究人员所述，RLI 的目的是测试 AI 自动化处理来自远程工作平台的数百个长期、真实世界且具有经济价值的项目的能力。

研究中使用的 AI 模型包括 Manus、Grok 4、Sonnet 4.5、GPT-5、ChatGPT agent 和 Gemini 2.5 Pro。

那么它们表现如何呢？并不太好。

“尽管 AI 系统在许多现有基准测试中已趋于饱和，但研究发现，最先进的 AI 代理在 RLI 上的表现接近底线，”研究人员透露。“表现最佳的模型自动化率仅为 2.5%。这表明当代 AI 系统无法以符合委托工作质量要求的水平完成绝大多数项目。”

Manus 表现最佳，自动化率为 2.5%。Grok 4 和 Sonnet 4.5 并列第二，为 2.1%，GPT- 5 紧随其后为 1.7%，ChatGPT agent 为 1.3%。Gemini 垫底，仅为 0.8%。

其中一位研究人员 Dan Hendrycks 通过在 X 上发帖对测试和结果发表了看法。Hendrycks 承认，虽然 AI 很聪明，但整体自动化率低于 3%，意味着它们目前还不够实用。为了解释 AI 在工作中失败的原因，Hendrycks 表示，许多 AI 能力存在缺陷。AI 不具备长期记忆存储能力，无法在工作中学习。此外，AI 的视觉能力有限，而这是执行其中几项任务所需的技能。

对于那些担心被 AI 取代的工人来说，这听起来都是好消息。对吧？不过，先别急着撕掉你的简历。该测试专门纳入了需要一定高级技能的创造性任务。其他类型的工作和项目可能更容易被 AI 处理。而且，AI 只会变得越来越聪明、能力越来越强。

“尽管绝对自动化率很低，但分析显示模型正在稳步改进，并且在这些复杂任务上的进展是可衡量的，”研究人员表示。“这为追踪 AI 自动化的发展轨迹提供了一个共同基础，使利益相关者能够主动应对其影响。”

是的，最好还是随时更新你的简历，以防万一。

正文完