人工智能系统的关键:训练数据的重要性

144次阅读
没有评论

共计 1054 个字符,预计需要花费 3 分钟才能阅读完成。

当今先进人工智能系统的核心在于数据,但成本却越来越高,使得除了最富有的科技公司外,其他人都难以触及。去年,OpenAI 的研究员詹姆斯·贝克尔(James Betker)在他的个人博客上发表了一篇关于生成式人工智能模型及其训练数据集本质的文章。贝克尔声称,训练数据——而非模型的设计、架构或任何其他特征——是日益复杂、功能强大的人工智能系统的关键。

贝克尔写道:“在同一数据集上进行足够长时间的训练后,几乎每个模型最终都会收敛到相同的点。”贝克尔是对的吗?训练数据是模型能够做到什么的最重要因素吗,无论是回答问题、画出人类手部还是生成逼真的城市景观?这当然是有道理的。

统计机器

生成式人工智能系统基本上是概率模型——一个庞大的统计数据堆。它们基于大量示例进行猜测,判断什么数据在哪里最“合理”(例如在句子“I go to the market”中“go”在“to the market”之前)。因此,似乎很直观,模型所依赖的示例越多,训练在这些示例上的模型性能就越好。

“似乎性能提升来自于数据”,艾伦人工智能研究所(AI2)的资深应用研究科学家凯尔·洛告诉 TechCrunch,“至少在你拥有一个稳定的训练设置后。”

赢取 10 万美元奖金,并在 2024 年 10 月 28 至 30 日于旧金山举办的 Disrupt2024 展示。[立即申请](https://techcrunch.com/events/tc-disrupt-2024/startup-battlefield/?promo=tc_inline&utm_campaign=disrupt2024&utm_content=tc_inline&utm_medium=ad&utm_source=tc)

洛举例提到了今年早些时候发布的 [Meta Llama 3,一个文本生成模型](https://techcrunch.com/2024/04/19/techcrunch-minute-metas-new-llama-3-models-give-open-source-ai-a-boost/),尽管与 AI2 自家的 OLMo 模型在架构上非常相似,但 Llama 3 表现却更佳。Llama 3 经过 [比 OLMo 多得多的数据训练](https://techcrunch.com/2024/02/01/ai2-open-sources-text-generating-ai-models-and-the-data-used-to-train-them/),洛认为这解释了它在许多流行的人工智能基准测试中的优越性。

正文完
 0
admin-gah
版权声明:本文于2024-06-02转载自Techcrunch,共计1054字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码