GPT-4.5突破图灵测试：AI智能新里程碑

182次阅读

共计 938 个字符，预计需要花费 3 分钟才能阅读完成。

在人工智能领域，图灵测试一直被视为衡量机器智能是否接近人类的重要标准。近日，一项新研究显示，OpenAI 的 GPT-4.5 模型在特定条件下成功通过了这一测试，引发了广泛关注。

这项尚未经过同行评审的预印本研究由加州大学圣地亚哥分校的团队主导。研究人员设计了一个三方版本的图灵测试，参与者同时与人类和 AI 进行对话，随后判断对方的身份。结果显示，当 GPT-4.5 被赋予特定角色时，73% 的参与者误以为它是人类，这一比例远高于随机概率的 50%。这意味着，GPT-4.5 不仅通过了图灵测试，甚至在某些情况下表现得比真实人类更“像人”。

GPT-4.5 突破图灵测试：AI 智能新里程碑

研究还对比了其他几款 AI 模型的表现，包括 Meta 的 LLama 3.1-405B、OpenAI 的 GPT-4o，以及上世纪 60 年代开发的早期聊天机器人 ELIZA。有趣的是，在没有角色提示的情况下，GPT-4.5 的胜率仅为 36%，而 GPT-4o 的表现更差，仅为 21%。令人意外的是，ELIZA 以 23% 的成功率略微超过了 GPT-4o。

图灵测试由英国数学家 Alan Turing 于 1950 年提出，其核心思想是通过对话测试机器是否能够模仿人类思维。如果审问者无法区分机器和人类的回答，则可以认为机器具备类人智能。然而，这一测试并非没有争议。谷歌软件工程师 François Chollet 曾指出，图灵测试更像是一个思想实验，而非实际评估 AI 智能的工具。

尽管如此，GPT-4.5 的成功仍具有重要意义。它不仅展示了大型语言模型在模仿人类对话方面的卓越能力，也引发了对 AI 未来应用的深思。研究主要作者 Cameron Jones 表示，这项研究并非旨在证明 AI 是否具备人类智能，而是表明大型语言模型可以在短时间内替代人类，且难以被察觉。这种能力可能带来工作的自动化、社会工程攻击的升级，以及更广泛的社会影响。

Jones 还强调，图灵测试不仅是对机器的考验，也反映了人类对技术认知的演变。随着公众对 AI 的熟悉度增加，他们或许会变得更擅长识别 AI 与人类的区别。因此，图灵测试的结果并非一成不变，而是随着技术进步和人类认知的变化而动态调整。

总的来说，GPT-4.5 通过图灵测试标志着 AI 发展的重要里程碑，但也提出了新的挑战和问题。如何在技术进步与社会影响之间找到平衡，将成为未来研究的核心议题。

正文完