共计 1129 个字符,预计需要花费 3 分钟才能阅读完成。
Cerebras 最近在 AI 领域搞了个大新闻,他们用一种叫做“思维链”的方法,让 Meta 的 Llama 模型在小规模版本上也能达到甚至超过大规模版本的表现。这事儿在 NeurIPS AI 会议上宣布的,挺轰动的。
简单来说,Cerebras 通过这种“思维链”技术,让 Llama 3.1 这个只有 70 亿参数的小模型,在各种测试中表现得跟那个 4050 亿参数的大哥一样好,甚至更好。这可不是小事,因为通常大家觉得模型越大,性能越好,但 Cerebras 证明了,通过更聪明的推理方式,小模型也能有大作为。
Cerebras 的产品营销负责人 James Wang 在接受采访时说,他们希望把这种能力带到 Llama 这个受欢迎的生态系统中。他还提到,这技术目前是闭源的,但他们有计划开源,让更多人受益。
Cerebras 的这个项目是他们一系列开源项目中的最新成果,主要是为了展示他们那台叫 CS- 3 的专用 AI 计算机的实力。这台机器可不是普通的 GPU,它跟 Nvidia 和 AMD 的 GPU 在 AI 领域是直接竞争的。
有趣的是,Cerebras 不仅让 Llama 3.1 表现出色,他们还把 Llama 3.3 提升到了“前沿”大型语言模型的水平,比如 Anthropic 的 Claude 3.5 Sonnet 和 OpenAI 的 GPT-4 Turbo。Wang 说,这是第一次有人把一个通常被认为是中等大小的 70B 模型,做到了前沿级别的性能。
Cerebras 还搞了个“草莓测试”,这名字挺有意思,其实是暗指 OpenAI 的 o1 模型的代号。Llama 3.1 在这个测试中表现不错,用思维链准确地关联了不同的 r 值。
从企业的角度看,Cerebras 这么做也是为了展示他们的 AI 计算机 CS- 3 的硬件和软件优势。他们在 Llama 项目中用了 WSE3 芯片,这是世界上最大的半导体,能够在不增加延迟的情况下运行 Llama 3.1 70B 模型。
Cerebras 还声称,他们的 CS2 机器是“唯一在 Cerebras CS2 上实时运行的推理模型”,比 OpenAI 的 o1 快得多。他们最近还推出了“世界上最快的推理服务”,比最快的 GPU 芯片服务快 16 倍。
Cerebras 的实验似乎支持了一个观点:随着提示变得越来越复杂,AI 模型的训练和推理需要的计算能力也在不断增加。Wang 说,大型语言模型的准确性通常会随着计算量的增加而提高,但具体提高多少,还得看用的是什么方法。
最后,Cerebras 还展示了他们在单台机器上用 55TB 商用 DRAM 对万亿参数语言模型进行初步训练的能力。他们还跟美国能源部的桑迪亚国家实验室合作,展示了在一万亿参数的大型语言模型上的“初步”训练。
总的来说,Cerebras 这次的表现让人印象深刻,他们不仅在技术上有所突破,还展示了他们在硬件和软件上的强大实力。