Cerebras用“思维链”技术让小模型Llama 3.1表现超越大模型

70次阅读
没有评论

共计 1129 个字符,预计需要花费 3 分钟才能阅读完成。

Cerebras 最近在 AI 领域搞了个大新闻,他们用一种叫做“思维链”的方法,让 Meta 的 Llama 模型在小规模版本上也能达到甚至超过大规模版本的表现。这事儿在 NeurIPS AI 会议上宣布的,挺轰动的。

简单来说,Cerebras 通过这种“思维链”技术,让 Llama 3.1 这个只有 70 亿参数的小模型,在各种测试中表现得跟那个 4050 亿参数的大哥一样好,甚至更好。这可不是小事,因为通常大家觉得模型越大,性能越好,但 Cerebras 证明了,通过更聪明的推理方式,小模型也能有大作为。

Cerebras 用“思维链”技术让小模型 Llama 3.1 表现超越大模型

Cerebras 的产品营销负责人 James Wang 在接受采访时说,他们希望把这种能力带到 Llama 这个受欢迎的生态系统中。他还提到,这技术目前是闭源的,但他们有计划开源,让更多人受益。

Cerebras 的这个项目是他们一系列开源项目中的最新成果,主要是为了展示他们那台叫 CS- 3 的专用 AI 计算机的实力。这台机器可不是普通的 GPU,它跟 Nvidia 和 AMD 的 GPU 在 AI 领域是直接竞争的。

有趣的是,Cerebras 不仅让 Llama 3.1 表现出色,他们还把 Llama 3.3 提升到了“前沿”大型语言模型的水平,比如 Anthropic 的 Claude 3.5 Sonnet 和 OpenAI 的 GPT-4 Turbo。Wang 说,这是第一次有人把一个通常被认为是中等大小的 70B 模型,做到了前沿级别的性能。

Cerebras 还搞了个“草莓测试”,这名字挺有意思,其实是暗指 OpenAI 的 o1 模型的代号。Llama 3.1 在这个测试中表现不错,用思维链准确地关联了不同的 r 值。

从企业的角度看,Cerebras 这么做也是为了展示他们的 AI 计算机 CS- 3 的硬件和软件优势。他们在 Llama 项目中用了 WSE3 芯片,这是世界上最大的半导体,能够在不增加延迟的情况下运行 Llama 3.1 70B 模型。

Cerebras 还声称,他们的 CS2 机器是“唯一在 Cerebras CS2 上实时运行的推理模型”,比 OpenAI 的 o1 快得多。他们最近还推出了“世界上最快的推理服务”,比最快的 GPU 芯片服务快 16 倍。

Cerebras 的实验似乎支持了一个观点:随着提示变得越来越复杂,AI 模型的训练和推理需要的计算能力也在不断增加。Wang 说,大型语言模型的准确性通常会随着计算量的增加而提高,但具体提高多少,还得看用的是什么方法。

最后,Cerebras 还展示了他们在单台机器上用 55TB 商用 DRAM 对万亿参数语言模型进行初步训练的能力。他们还跟美国能源部的桑迪亚国家实验室合作,展示了在一万亿参数的大型语言模型上的“初步”训练。

总的来说,Cerebras 这次的表现让人印象深刻,他们不仅在技术上有所突破,还展示了他们在硬件和软件上的强大实力。

正文完
 0
admin-gah
版权声明:本文于2024-12-11转载自Zdnet,共计1129字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码