共计 5658 个字符,预计需要花费 15 分钟才能阅读完成。
在技术领域深耕多年后,能激起他们兴趣的事物已寥寥无几,更不用说让他们感到惊讶了。然而,在 OpenAI 的 ChatGPT 发布后不久,他们让其为妻子的电子商务网站编写一个 WordPress 插件。当插件成功运行并正常工作时,他们确实感到惊讶。
但那是在 2023 年。自生成式 AI 的早期以来,他们已经走过了很长的路。更准确地说,AI 辅助编程自那时起已经取得了巨大的进步。在 2023 年和 2024 年,AI 辅助编程主要在聊天机器人中进行。他们在聊天机器人界面中编写请求,获得结果,然后将这些结果剪切并粘贴到他们的编程编辑器中。
编码代理的到来
然后,在 2025 年,AI 辅助编程的世界 ** 加剧 ** 了。编码代理以 GitHub Copilot、Claude Code、Google Jules 和 OpenAI Codex 的形式被引入。在 2025 年的大部分时间里,AI 公司专注于将这些代理集成到程序员的工作流程中,使它们在 GitHub、终端和 VS Code 中可用。
编码代理也开始变得更加昂贵。它们需要大量资源,AI 公司也相应地收费。他们的测试发现,使用 OpenAI 的 $20/ 月 ChatGPT Plus 计划,你大约可以使用 Codex 两天,但如果你想要更多,你需要每月花费 $200 购买 Pro 计划。Claude、Gemini 和 Copilot 也遵循类似的成本结构。
这并不是说这不值得。使用 $20/ 月的 ChatGPT Plus 计划,他们在 12 小时内完成了 24 天的编码工作。当他们支付 $200 购买 ChatGPT Pro 计划时,他们在 4 天内完成了 4 年的产品开发,花费 $200,他们仍然感到震惊。
但并不是每个人都愿意(或能够)支付 AI 费用。幸运的是,也有免费的 AI 聊天机器人可用。他们稍微改变了这篇文章的重点,从比较 LLM 编码性能转向比较免费聊天机器人的性能。
免费 AI 编码排行榜
让我们从比较聊天机器人在本期的免费最佳排行榜中的表现开始:

接下来,让我们分别看看每个免费聊天机器人。准备好了吗?开始吧。
Copilot
优点
- 通过了所有测试
- 能够处理一个更晦涩的测试案例
缺点
- 最初无法访问
- 没有其他抱怨
他们这一轮的经历一开始就遇到了障碍。无论他们尝试向 Copilot 输入什么,都会得到这样的回复:“抱歉,我现在无法响应请求。让我们稍后再试。”是的,一个 AI 实际上告诉他们:“抱歉,Dave。我恐怕不能那样做。”别告诉他们生活不模仿艺术!
一天后,Copilot 决定愿意出来玩了。
Copilot 使用其快速响应设置,在 WordPress 插件编写测试中做了一些不同的事情。他们给过这个提示的所有其他 AI(包括这个版本和历史版本),都在用户界面中呈现了两个字段:一个用于输入,一个用于输出。
Copilot 只呈现了一个字段,这最初让他们感到担忧。它没有理解任务吗?它在第一个字段后崩溃了吗?它会在输入字段中返回结果吗?但并非如此。点击“随机化行”后,它显示了一个带有正确结果的输出字段。第一个测试成功了。
美元和美分验证字符串函数重写是正确的。它正确地验证了所有输入样式,拒绝了明显的错误,并根据用户意图允许数字。他们也会给这个测试点赞。
Copilot 成功地识别了调试测试中的错误。它能够深入其框架知识,并找出原始代码偏离轨道的地方。到目前为止,三个测试都正确。
Copilot 还正确地处理了他们的三部分脚本挑战,理解如何包含相当晦涩的 Keyboard Maestro 工具,如何与 Chrome 对话,以及如何处理 AppleScript,而不会陷入让许多其他 AI 措手不及的大小写敏感性问题。
Copilot 轻松处理了所有四个测试,使 Copilot 的免费“快速响应”模式在四项测试中全部通过。
ChatGPT
优点
- 如果升级,表现会更好,速度更快
- 不错的 Mac 应用
缺点
- 制定了自己的编码标准
- 需要纠正
ChatGPT 的免费版本使用了 OpenAI 的 GPT-5 LLM 中能力最弱(因此资源消耗最少)的版本。
这个 AI 在他们前三个测试中表现不错。它轻松地创建了一个不错的 WordPress 插件,具有可用的界面和功能。它在重写字符串函数时调整了他们的正则表达式代码。它成功地解决了调试挑战。
但它在 AppleScript 测试中失败了。这个测试似乎普遍难倒了低端 AI 模型。该测试结合了 AppleScript、一个名为 Keyboard Maestro 的实用程序和一点 Chrome 黑客技术。
并不是 ChatGPT 的免费版本不知道 AppleScript。而是它弄错了。生成的代码使用了一个名为“lowercaseString”的函数,该函数在正常的 AppleScript 中并不存在。可以导入该函数(想象一下在《谁想成为百万富翁》中打电话给朋友),但你必须明确包含行 _use framework “Foundation”_ 才能使其工作,而 ChatGPT 没有这样做。
当他们告知 ChatGPT 这一点时,它道歉并给了他们一个新版本。但他们并不是在测试是否可以从 AI 中哄骗出可用的代码。他们测试的是它们在第一次尝试时的表现。
DeepSeek
优点
- 非常漂亮的 UI 生成
- 通过了大多数测试
缺点
- 返回了多组代码
- 未通过最终测试
DeepSeek 提供了对 DeepSeek-V3.2 模型的访问,因此他们正在测试该模型。
DeepSeek 创建 WordPress 插件的时间比其他 AI 稍长。它的代码也更长。但它很好。像 Copilot 一样,DeepSeek 最初只呈现了一个字段。一旦他们粘贴了测试数据,该字段就会动态更新一个状态字段,显示粘贴的行数。
然后,一旦点击“随机化行”,就会呈现第二个字段。第二个字段有一个漂亮的浅灰色背景。其他 AI 都没有区分输出字段的外观。
DeepSeek 做的另一件事是添加了一个“复制到剪贴板”按钮,其他 AI 都没有想到这一点。这并不是真正必要的,因为用户可以简单地选择输出文本,但这是一个不错的细节。
DeepSeek 以优异的成绩通过了第一个测试。
下一个测试有点奇怪。在美元和美分验证测试中,要求重写一个字符串函数,DeepSeek 返回了两个例程。第一个例程被描述为“这是重写的代码,允许美元和美分(最多两位小数的十进制数字)。”第二个例程被描述为“更明确的替代版本”。
他们猜测训练中存在一些语言问题,因为“明确”在这个上下文中没有意义。也就是说,第一个例程中有一些验证错误。第二个例程完美地工作。出于某种原因,DeepSeek 知道第一个例程不够好。但为什么它不直接返回第二个例程呢?
他们将其视为成功,但与其说是通过一个固定的例程节省时间,不如说是给了他们一个家庭作业,他们必须测试两个例程并将它们相互比较,然后才能选择一个。他们不喜欢这样,但这并不是失败。
DeepSeek 在调试错误中成功了,正确地找到了他们的框架错误。所以这是一个通过,他们现在有三项测试通过。
但这就是它的极限了。DeepSeek 再次呈现了两个版本,这次是针对最终的脚本挑战,这两个版本都无法使用。DeepSeek 不仅完全忽略了提示中的 Keyboard Maestro 部分,还在每个版本的响应中向 shell 添加了多个高度不必要且低效的进程分支,以试图强制大小写不敏感。AppleScript 默认已经是大小写不敏感的。
如果他们想要“我不知道,我会尝试我能想到的一切”的代码,他们会请求它。也就是说,DeepSeek 在前三个测试中表现出了令人钦佩的能力。
避免用于编程帮助的免费聊天机器人
他们测试了八个聊天机器人。这次只有三个通过了他们的大部分测试。其他聊天机器人,包括一些被宣传为非常适合编程的聊天机器人,只通过了一两个测试。
他们在这里提到它们是因为人们会问,而且他们确实对它们进行了彻底的测试。其中一些机器人适合其他工作。一定要查看他们的整体聊天机器人评论文章以获取更多详细信息。
Claude
优点
- 通过了 UI 测试
- 识别了测试中的错误
缺点
- 需要登录
- 必须使用电子邮件而不是密码
- 未通过一半的测试
Claude 拒绝在没有登录的情况下工作。Claude 的免费版本也不允许你分配密码。你通过输入你的电子邮件地址并等待确认电子邮件来登录。
让我们明确一点。这不是 Claude Code,它在你的终端界面中运行,并且仅对付费订阅者可用。他们正在测试 Claude 的免费版本,使用 Sonnet 4.5 AI 模型。
在第一个测试中,Claude 呈现了漂亮的并排字段。它还在他们将文本粘贴到字段中后立即识别了要随机化的行数。这两点都很好。点击“随机化行”按钮也正确地遵循了提示指南。成功。
然而,美元和美分验证的字符串函数重写在许多地方失败了。例如,如果用户输入“0”、“0.50”和“1.20”,它会失败。仅输入美分也被错误地拒绝,这是 AI 的错误。提示明确允许它们在提示中说“小数点后最多两位数字”的部分。
挑战在框架知识中找到烦人的错误通过了测试,所以这是第二次成功。
Claude 未通过第四次测试,因为它试图将已经是大小写不敏感的字符串转换为小写。此外,它尝试这样做的方式是通过分叉一个新的 shell 实例,将字符串传递给 shell,然后使用 shell 命令将文本从大写转换为小写。这是复杂且不必要的。失败。至少它不像 DeepSeek 那样尝试了两个分支,但两个 AI 都为这个挑战产生了荒谬的解决方案。
虽然 Claude Code 本身可能很受欢迎,但 Claude 的免费版本在编码能力方面并不令人印象深刻。四项测试中通过两项不会及格。
Meta
优点
- 在一些测试中表现不错
缺点
- 生成了丑陋的 UI
- 未通过一半的测试
Meta 的 AI 成功地为插件生成了用户界面,并且在实际处理特殊随机化指令时也成功了。UI 比其他 AI 稍微丑陋一些,但没有要求 UI 必须漂亮,只要有用就行。
然而,一个令人困惑的地方是,AI 生成了代码,然后又生成了部分代码。它似乎暗示第二段代码用于修改第一段,而第二段的全部内容已经包含在第一段中。
再次强调,提示并没有告诉 AI 要清楚地说明其指令,或者不要用评论来迷惑他们。由于插件正常工作,他们将这视为 Meta 的成功。
在回答第一个问题后,Meta 坚持让他们登录。即使他们已经有了一个 Meta 账户(用于他们的 Quest 3),要再次访问 AI 仍然需要一些相当不必要的障碍,包括它坚持要求他们创建另一个用户名。真让人费解。
在美元和美分验证字符串函数重写测试中,它也决定返回两个结果,称“然而,上面的代码不会将小数位数限制为两位。如果你想强制执行恰好两位小数或更少,你可以使用正则表达式来验证字符串。”
是的。好吧。当然。
但随后出现了错误。“000.50”变成了“.50”,然后验证失败。“.5”验证失败,尽管它明确询问是否想要两位小数或更少。“.5”是更少。“5.”也失败了。但“000”被允许通过。他们将这视为 Meta 的失败。
烦人的错误挑战成功解决了。Meta 确实深入研究了框架知识,并正确地指出了编码错误。到目前为止,两次成功和一次失败。
Meta 在最终测试中失败了,甚至没有承认提示中包含了 Keyboard Maestro。它没有像其他 AI 那样陷入大小写不敏感的问题,但由于它完全忽略了提示中的一个关键部分,他们也将这视为失败。
Grok
优点
- 登录后可以访问更多资源
- 当可用时,专家模式很可靠
缺点
- 需要登录以获得更好的处理
- 编码失败
- 专家模式非常有限
使用 Grok 的自动模式选择语言模型,AI 一开始就失败了。虽然它正确地构建了 WordPress 插件用户界面,但功能不起作用。你可以随意按下“随机化行”按钮,但什么也没有发生。
为了好玩,他们尝试在专家模式下运行测试,但它需要登录。因此,他们切换到他们的个人 X 账户并重新运行测试。第二次运行花费了超过五分钟来处理,但令人满意地完成了测试。尽管如此,他们认为这次测试部分失败,因为它没有在第一次尝试时正常运行。
Grok 的自动模式在第二个测试中非常有效,该测试进行正则表达式处理,并负责重写字符串函数。它不仅修复了代码中的问题,还对输入值进行了一堆最佳实践规范化操作。唯一的小问题是它可以写得稍微更高效一些。
Grok 也通过了他们的错误诊断测试,但未通过 AppleScript 测试。它没有犯 ChatGPT 那样的小写错误,但它完全忽略了测试中的 Keyboard Maestro 组件。他们还在 Grok 的专家模式下重新运行了该测试,并成功了。
很明显,如果你想使用 Grok 的免费版本进行编码,使用专家模式会给你更好的结果。那里的陷阱是,你每两个小时只能问两个问题。
他们仍然认为这是自动模式下的两次失败。专家模式对于任何想要在没有等待数小时的情况下工作的人来说都是相当不切实际的。
Perplexity
优点
- 构建了一个可用的 WordPress 插件
缺点
- 代码导致崩溃
- 有限的 Pro 使用
- 也需要登录
首先,Perplexity 拒绝在没有登录的情况下做任何事情。所以就是这样。
Perplexity 通过了第一个编码测试。它创建了一个带有用户界面的 WordPress 插件,并且它是可用的。
另一方面,他们的字符串函数重写美元和美分验证测试失败了。如果传递给它的数据是 null、undefined 或空白,它会硬性失败,导致程序崩溃,这是不允许的。它还搞砸了规范化格式,所以应该稍微清理和处理的值直接失败。
Perplexity 确实通过了调试测试,识别了测试中相当晦涩的框架错误。
然而,在完成该测试后不久,Perplexity 告诉他们,他们已经用完了当天的三次 Pro 搜索。Perplexity 将其定位为 AI 搜索引擎,它将常规的 AI 提示称为“搜索”。它还暗示,即使你升级到 Pro,它也可能提供不正确的结果,就像它在第二个测试中所做的那样。
第四个测试,结合了 AppleScript、Chrome 编码和 Keyboard Maestro 的测试也失败了,触发了该测试中的两个小陷阱。它根本没有识别 Keyboard Maestro,并且它尝试使用一个不存在的小写函数。
因此,Perplexity 有两次通过和两次失败,其中三次测试是使用 Pro 版本运行的。
他们确实回去重新运行了第一个测试,使用 Per,绝对不要返回修改后的内容