Grok聊天机器人编程测试：从WordPress插件到货币验证的实战体验

94次阅读

共计 972 个字符，预计需要花费 3 分钟才能阅读完成。

最近我花了不少时间测试 X 新推出的 Grok 聊天机器人，特别是在编程方面的表现。作为一个经常和 AI 打交道的人，我对 Grok 的表现还挺意外的。

说到 Grok 这个名字，倒是勾起了我一些有趣的回忆。记得高中那会儿，我在图书馆偶然翻到 Robert Heinlein 的《异乡异客》，那本破旧的精装书已经泛黄了。当时我父母对课外读物管得挺严，但只要是带 ’ 科学 ’ 二字的书，他们就觉得是 ’ 正经书 ’。现在想想，Heinlein 笔下那些大胆的社会观念，对当时的我来说确实有点超前了。

Grok 聊天机器人编程测试：从 WordPress 插件到货币验证的实战体验

Grok 这个词就是从这本书里来的，意思是深层次的理解。用这个词给 AI 命名，还挺贴切的。不过有趣的是，当我问 Grok 它的灵感来源时，它居然提到了《银河系漫游指南》。虽然这两本书都挺有意思，但说实话，它们之间还真没什么直接联系。

我设计了几项编程测试来考验 Grok。第一个任务是帮我妻子写一个 WordPress 插件，用来随机排列她网店的抽奖名单。这个需求说起来简单，但有个特殊要求：如果同一个用户提交了多个条目，这些名字在结果中不能相邻。Grok 不仅完成了这个任务，还设计了一个简洁的界面，让我妻子可以直接粘贴名单，一键生成结果。

第二个测试是关于货币验证的。我原本的代码只能处理整数金额，比如 5 美元，但无法处理 5.25 美元这样的金额。Grok 虽然改进了正则表达式，但还是有个小瑕疵：它不能识别 ’.5’ 这样的格式。虽然技术上 0.5 和.5 是一样的，但用户习惯可不会这么讲究。

最让我印象深刻的是第三个测试。我让 Grok 去找一个 WordPress API 相关的 bug，这个问题相当隐蔽，我之前调试的时候都花了好几个小时。没想到 Grok 一下子就找到了问题所在，给出了正确的解决方案。

最后一个测试难度最大，需要同时处理 Keyboard Maestro、Chrome 和 AppleScript 三个环境。目前为止，只有少数几个顶级 AI 能通过这个测试。让我惊讶的是，Grok 居然也做到了。

总的来说，Grok 在四个测试中通过了三个，这个成绩相当不错。如果它能改进货币验证那个小问题，就完美了。虽然我对 X 接手 Twitter 后的种种改变持保留态度，但不得不承认，Grok 在编程方面确实有两把刷子。

说起来，你们有读过《异乡异客》或者《银河系漫游指南》吗？我总觉得，这些科幻作品里的奇思妙想，某种程度上也在塑造着我们对 AI 的想象。

正文完