DeepSeek-V3震撼发布:6710亿参数AI模型引领开源新潮流

56次阅读
没有评论

共计 628 个字符,预计需要花费 2 分钟才能阅读完成。

最近在 AI 圈子里,DeepSeek-V3 的发布可是引起了不小的轰动。作为一个长期关注 AI 发展的技术爱好者,我不得不承认,这次中国 AI 初创公司 DeepSeek 确实给我们带来了惊喜。

DeepSeek-V3 拥有 6710 亿参数,采用专家混合架构和创新的多头潜在注意力机制,让每个 token 都能激活 370 亿参数。这种设计思路确实很巧妙,更让人印象深刻的是,它的训练成本只有 557 万美元,这在动辄上千万美元的大型语言模型领域,简直是一股清流。

DeepSeek-V3 震撼发布:6710 亿参数 AI 模型引领开源新潮流

DeepSeek-V3 以 MIT 许可证的开源方式发布,代码托管在 GitHub 上。虽然 6710 亿参数这个数字可能让普通开发者望而却步,但 DeepSeek Chat 提供的 API 接口倒是挺亲民的,特别是那个每百万输入 token 0.27 美元的价格,对于中小企业来说应该是个不错的选择。

在性能方面,DeepSeek-V3 的表现确实可圈可点。特别是在中文处理和数学推理方面,90.2 分的 Math-500 测试成绩让人眼前一亮。虽然在某些基准测试上,Anthropic 的 Claude 3.5 Sonnet 可能略胜一筹,但考虑到 DeepSeek-V3 的开源属性,这个表现已经相当不错了。

总的来说,DeepSeek-V3 的发布不仅为开源 AI 社区注入了新的活力,也为 AI 技术的发展开辟了新的可能性。虽然它可能还不是完美的,但它的出现无疑为整个行业树立了一个新的标杆。作为一个技术爱好者,我很期待看到它在实际应用中的表现,也好奇它会给 AI 领域带来怎样的变革。

正文完
 0
admin-gah
版权声明:本文于2024-12-28转载自VentureBeat,共计628字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码