共计 2649 个字符,预计需要花费 7 分钟才能阅读完成。
在 Claude Code 引爆 AI 编程热潮之际,AI 领域又迎来了一位实力强劲的开源选手。由加密货币风投 Paradigm 支持的人工智能初创公司 Nous Research,本周一正式发布了其全新的开源编程模型——NousCoder-14B。这款模型仅用 48 个英伟达 B200 GPU 训练了四天,其表现却能与多个规模更大的专有系统匹敌甚至超越,为 AI 辅助软件开发领域注入了新的活力。

图片来源:VentureBeat 使用 Midjourney 制作
NousCoder-14B 的发布时机颇为微妙。其竞争对手 Anthropic 推出的代理式编程工具 Claude Code 自年初以来便主导了社交媒体讨论,开发者们对其强大的端到端软件开发能力赞不绝口。这两件几乎同时发生的事件,凸显了 AI 编程工具领域的竞争日趋白热化,大小公司都在竞相争夺这一被视为未来软件开发基石的技术阵地。
在评估模型解决新近编程竞赛题目能力的标准化基准 LiveCodeBench v6 上,NousCoder-14B 取得了 67.87% 的准确率。根据 Nous Research 发布的技术报告,这一成绩比其基础模型——阿里巴巴的 Qwen3-14B——提升了 7.08 个百分点,进步显著。
“我向 Claude Code 描述了问题,它在一小时内就生成了我们去年花一年时间构建的内容,”谷歌 Gemini API 团队首席工程师 Jaana Dogan 上周在 X 平台上的一则帖子写道,这恰好捕捉了当前围绕 AI 编码工具的普遍兴奋情绪。当 Claude Code 通过展示强大的端到端能力激发想象时,Nous Research 则选择了另一条路径:押注于在可验证问题上训练的开源替代品同样可以迎头赶上,并且模型的构建透明度与原始性能同等重要。
构建一个可复现的 AI 编码模型
NousCoder-14B 的发布之所以引人注目,在于其极致的开放性。Nous Research 不仅公开了模型权重,还发布了完整的强化学习环境、基准测试套件以及基于其 Atropos 框架构建的训练框架。这使得任何拥有足够计算资源的研究者,都能够复现或扩展这项工作,极大地推动了学术和开源社区的发展。
“开源 Atropos 技术栈为可复现的奥林匹克级推理研究提供了必要的基础设施,”一位观察者在 X 上评论道。
该模型由 Nous Research 的驻场研究员、前竞赛程序员 Joe Li 负责训练。在他的技术报告中,Li 将模型的改进轨迹与自己在 Codeforces 竞赛平台上的成长历程进行了对比。基于估算,NousCoder-14B 的进步——相当于从约 1600-1750 的评级跃升至 2100-2200——这等同于他本人在 14 至 16 岁期间,通过近两年持续练习才实现的飞跃。而模型仅用四天就达成了这一成就。
“观看最后一次训练运行的展开,是一次相当超现实的体验,”Li 写道。但他也迅速指出,在那两年里,他解决了大约 1000 个问题,而模型则使用了 24000 个。至少就目前而言,人类在样本效率上仍然远胜 AI。
强化学习系统内幕:用 24000 道竞赛题训练
NousCoder-14B 的训练过程,为了解研究人员如何通过强化学习提升 AI 推理能力提供了一个窗口。该方法依赖于“可验证奖励”系统:模型生成代码解决方案,然后针对测试用例执行,最终收到一个简单的二进制信号——正确或错误。
Nous Research 利用云计算平台 Modal 来并行运行沙盒代码执行。24000 个训练问题中,每一个平均包含数百个测试用例。系统必须验证生成的代码能在规定的时间和内存限制内产生正确的输出。
训练采用了一种名为 DAPO(动态采样策略优化)的技术。一个关键创新在于“动态采样”——丢弃那些模型要么全部解决、要么全部失败的训练样本,因为这些样本无法提供有效的学习梯度信号。研究人员还采用了“迭代上下文扩展”技术,逐步扩大模型的上下文处理能力。
训练流程实现了推理与验证的重叠,结合多个模型实例并行工作的异步训练方式,最大限度地提升了昂贵 GPU 集群的硬件利用率。
迫在眉睫的数据短缺可能减缓进展
Li 的技术报告中隐藏着一个对 AI 未来发展意义重大的发现:NousCoder-14B 的训练数据集“已经包含了大部分易于获取、可验证且以标准化数据集格式存在的竞赛编程问题”。换言之,对于这个特定领域,研究人员正在接近高质量训练数据的极限。
“互联网上竞赛编程问题的总数大致处于同一数量级,”Li 写道,他指的是用于训练的 24000 个问题。“这表明在竞赛编程领域,我们已接近高质量数据的极限。”
这一观察呼应了整个 AI 行业对数据限制日益增长的担忧。对于竞赛编程而言,这一挑战尤为严峻,因为该领域需要那些已知正确答案、并能自动验证的问题。Li 确定了一个潜在的解决路径:训练模型不仅要解决问题,还要生成可被解决的问题,从而实现一种类似于在游戏 AI 系统中已获成功的“自我对弈”形式。
6500 万美元的赌注:开源 AI 能否与科技巨头抗衡
Nous Research 在 AI 领域占据了一个独特的位置:一家致力于发布开源产品的公司,其产品旨在与专有替代品竞争,有时甚至实现超越。该公司于 2025 年 4 月完成了由 Paradigm 领投的 5000 万美元融资,据报道总融资额达到 6500 万美元。
此前的发布包括 Hermes 4 模型系列以及 DeepHermes-3。该公司培养了一种独特的审美和社区文化,也引发了一些人对其风格是否会掩盖实质的质疑。技术社区也提出了各种疑问,例如模型是专注于代理式编程,还是仅仅停留在“一次性”编码——这一区别对于实际软件开发至关重要。
AI 编码工具持续改进的下一步
此次发布也指明了未来工作的几个方向:
- 多轮强化学习 :训练模型在多次尝试中整合中间反馈(如编译错误、输出不正确等),可以显著提升性能。
- 控制响应长度 :不正确的解决方案往往比正确的更长,并且响应长度会迅速达到上下文窗口的上限,这仍是一个待解决的挑战。
- 问题生成与自我对弈 :训练模型既能解决编程问题,也能创建编程问题,以应对数据稀缺的挑战。
该模型现已于 Hugging Face 平台以 Apache 2.0 许可证发布。Nous Research 已随模型一同发布了完整的 Atropos 训练技术栈,供研究者和开发者构建。
Li 花了两年青春期的专注才实现的成就,AI 在 96 小时内便将其复制。他需要解决 1000 个问题,模型需要 24000 个。但很快,这些系统或许将学会编写自己的问题,进行自我教学,并完全超越人类设定的基准。问题已不再是机器能否学会编程,而是它们是否很快就会成为比我们以往任何时候都更出色的导师。