训练数据在人工智能发展中的关键作用

103次阅读
没有评论

共计 604 个字符,预计需要花费 2 分钟才能阅读完成。

在当今的人工智能领域,数据被视为核心资源。然而,随着数据成本的不断上升,许多非顶尖技术公司难以触及这一宝贵资源。去年,OpenAI 的研究员詹姆斯·贝克在其个人博客上发表了一篇文章,探讨了生成式 AI 模型及其训练数据集的特性。贝克强调,相较于模型设计或架构,训练数据是推动人工智能系统向更复杂、更可靠方向发展的关键因素。

贝克在文章中提到:“通过在同一数据集上进行充分的训练,研究员们取得的性能提升可能质疑了某些神经度量指标和实验的有效性。”这一观点清晰地指出,数据的质量和数量对模型性能的影响至关重要。

生成式人工智能系统本质上是一系列概率模型,它们依赖大量示例来推断数据的有意义性。因此,示例越多,模型的性能通常越好。艾伦人工智能研究所的资深应用研究科学家凯尔·洛表示:“性能的提升似乎主要由数据驱动,特别是在拥有稳定的训练环境之后。”

洛还提到了 Meta 公司发布的文本生成模型 Llama 3,该模型在多个流行的人工智能基准测试中表现优于 AI2 的 OLMo 模型,尽管两者的架构相似。Llama 3 之所以表现更佳,是因为它使用了更多的训练数据。然而,洛也指出,数据的质量比数量更为重要,因为模型遵循“输入垃圾,输出垃圾”的原则。

此外,OpenAI 的研究员 Gabriel Goh 在接受采访时提到,与 DALL-E 2 相比,DALL-E 3 的性能提升很大程度上得益于更高质量的注释。这进一步证明了高质量数据在提升模型性能中的关键作用。

正文完
 0
admin-gah
版权声明:本文于2024-06-02转载自Techcrunch,共计604字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码