共计 1374 个字符,预计需要花费 4 分钟才能阅读完成。
近日,Inception Labs 发布了名为 Mercury Coder 的新型 AI 语言模型,该模型借鉴了 AI 图像合成技术中的扩散方法,实现了比传统模型快 10 倍的文本生成速度。这一突破性技术有望为 AI 文本生成领域带来新的变革。
与传统的自回归模型(如驱动 ChatGPT 的模型)不同,Mercury Coder 采用了一种基于扩散的技术,能够同时生成整个响应,而不是逐字逐句地生成文本。传统模型从左到右逐个标记生成文本,每个单词必须等待前面的单词生成后才能继续。而扩散模型则从完全遮蔽的内容开始,逐步“去噪”,一次性揭示所有部分的响应。
这种方法的灵感来源于图像生成模型如 Stable Diffusion、DALL-E 和 Midjourney。与图像扩散模型为像素值添加连续噪声不同,文本扩散模型无法对离散标记(文本数据块)应用连续噪声。相反,它们用特殊的掩码标记替换文本标记,作为文本的等效噪声。例如,LLaDA(由中国人民大学和蚂蚁集团的研究人员开发)和 Mercury 都采用了这种基于掩码的方法,通过控制掩码概率来模拟噪声水平,从而逐步生成连贯的文本。
Inception Labs 表示,这种并行处理的方式使 Mercury 在 Nvidia H100 GPU 上实现了每秒 1,000 多个标记的生成速度。与类似规模的传统模型相比,这些扩散模型在性能上保持了相当的甚至更快的水平。例如,LLaDA 的 80 亿参数模型在多项基准测试中表现与 LLaMA3 8B 相当,而 Mercury Coder Mini 在 HumanEval 和 MBPP 等编码基准测试中的得分与 GPT-4o Mini 相近,但生成速度却快了约 19 倍。
Mercury 的文档指出,其模型在 Nvidia H100 上的运行速度“超过每秒 1,000 个标记”,这一速度以前只有使用 Groq、Cerebras 和 SambaNova 等专业硬件提供商的定制芯片才能实现。与其他速度优化的模型相比,Mercury 的优势依然显著。例如,Mercury Coder Mini 比 Gemini 2.0 Flash-Lite 快约 5.5 倍,比 Claude 3.5 Haiku 快 18 倍。
尽管扩散模型需要多次通过网络的前向传递才能生成完整的响应,但由于其并行处理所有标记的特性,它们仍能实现更高的吞吐量。Inception 认为,这种速度优势可能会在代码完成工具、对话式 AI 应用、移动应用等资源有限的环境中发挥重要作用,尤其是在需要快速响应的场景中。
独立 AI 研究员 Simon Willison 表示:“我喜欢人们正在尝试替代 Transformer 的架构,这再次说明了我们对 LLM 的探索还远未开始。”前 OpenAI 研究员 Andrej Karpathy 也在 X 上写道:“这个模型有可能与众不同,并可能展示出新的、独特的心理,或新的优势和劣势。我鼓励大家尝试一下!”
然而,关于扩散模型是否能与 GPT-4o 和 Claude 3.7 Sonnet 等顶级模型的性能相匹配,以及它们能否在不产生大量虚构的情况下生成可靠的结果,仍然存在疑问。目前,这些模型可能为较小的 AI 语言模型提供一种替代方案,似乎不会因为速度而牺牲能力。
你可以在 Inception 的演示网站上亲自尝试 Mercury Coder,或者在 Hugging Face 上下载 LLaDA 的代码或尝试其演示。这一技术的未来发展将如何影响 AI 文本生成领域,值得持续关注。