担心AI抢走远程工作?最新研究揭示:你目前仍安全

21次阅读
没有评论

共计 1412 个字符,预计需要花费 4 分钟才能阅读完成。

担心 AI 会抢走你的远程工作?一项最新研究带来了好消息:目前你仍然安全。研究人员在游戏开发、数据分析和视频动画等领域的远程自由职业项目上测试了人工智能。结果并不理想。

AI 搜索栏抽象图像

图片来源:Andriy Onufriyenko via Moment / Getty Images

ZDNET 关键要点

  • 研究人员将真人已完成的工作任务交给人工智能执行。
  • 与人类工作者相比,人工智能的表现一败涂地。
  • 但人工智能正在变得越来越聪明。

关于人工智能的众多担忧之一是它将取代人类的工作。一项新研究表明,尽管这种担忧并非空穴来风,但可能被夸大了——至少目前如此。

远程劳动力指数:AI 与人类自由职业者的较量

为了衡量人工智能是否能像人类一样有效地完成项目,一组研究人员让多个 AI 系统执行了一系列工作项目。这些项目此前已由真实的远程自由职业者完成,涵盖游戏开发、产品设计、建筑、数据分析和视频动画等领域。

具体任务包括以下挑战:

  • 为探索《世界幸福报告》数据构建一个交互式仪表板。
  • 创建 3D 动画来展示新款无线耳机设计和充电盒的特点。
  • 制作一部 2D 动画视频,宣传一家免费服务公司的产品。
  • 根据现有的 PDF 设计,为一个集装箱房屋制定建筑平面图和 3D 模型。
  • 开发一款酿造主题版本的“西瓜游戏”,玩家需要合并下落的物体以达到最高等级物品。
  • 使用提供的功能和公式为一篇 IEEE 会议论文进行格式排版。

这些任务难度各异,由真人完成时花费了 1 万美元,耗时超过 100 小时。为了衡量 AI 自动化与人类远程工作的对比情况,研究人员建立了一个名为远程劳动力指数的基准。

AI 模型表现不佳:自动化率极低

正如研究人员所述,RLI 的目的是测试 AI 自动化处理来自远程工作平台的数百个长期、真实世界且具有经济价值的项目的能力。

研究中使用的 AI 模型包括 Manus、Grok 4、Sonnet 4.5、GPT-5、ChatGPT agent 和 Gemini 2.5 Pro。

那么它们表现如何呢?并不太好。

“尽管 AI 系统在许多现有基准测试中已趋于饱和,但研究发现,最先进的 AI 代理在 RLI 上的表现接近底线,”研究人员透露。“表现最佳的模型自动化率仅为 2.5%。这表明当代 AI 系统无法以符合委托工作质量要求的水平完成绝大多数项目。”

Manus 表现最佳,自动化率为 2.5%。Grok 4 和 Sonnet 4.5 并列第二,为 2.1%,GPT- 5 紧随其后为 1.7%,ChatGPT agent 为 1.3%。Gemini 垫底,仅为 0.8%。

其中一位研究人员 Dan Hendrycks 通过在 X 上发帖对测试和结果发表了看法。Hendrycks 承认,虽然 AI 很聪明,但整体自动化率低于 3%,意味着它们目前还不够实用。为了解释 AI 在工作中失败的原因,Hendrycks 表示,许多 AI 能力存在缺陷。AI 不具备长期记忆存储能力,无法在工作中学习。此外,AI 的视觉能力有限,而这是执行其中几项任务所需的技能。

AI 正在稳步改进:未来仍需警惕

对于那些担心被 AI 取代的工人来说,这听起来都是好消息。对吧?不过,先别急着撕掉你的简历。该测试专门纳入了需要一定高级技能的创造性任务。其他类型的工作和项目可能更容易被 AI 处理。而且,AI 只会变得越来越聪明、能力越来越强。

“尽管绝对自动化率很低,但分析显示模型正在稳步改进,并且在这些复杂任务上的进展是可衡量的,”研究人员表示。“这为追踪 AI 自动化的发展轨迹提供了一个共同基础,使利益相关者能够主动应对其影响。”

是的,最好还是随时更新你的简历,以防万一。

正文完
 0
admin-gah
版权声明:本文于2026-01-16转载自Zdnet,共计1412字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码