数据在人工智能模型中的关键作用

95次阅读
没有评论

共计 672 个字符,预计需要花费 2 分钟才能阅读完成。

数据是当今先进人工智能系统的核心,但其成本不断攀升,使得除了最富有的科技公司之外,其他机构难以触及。去年,OpenAI 的研究员詹姆斯·贝特克在其个人博客上发表了一篇文章,探讨了生成式人工智能模型及其依赖的数据集的性质。贝特克认为,训练数据——而非模型的设计、结构或其他方面——是推动人工智能系统日益复杂和功能强大的关键因素。

他指出:“在相同数据集上训练足够长时间,几乎每个模型最终都会收敛到同一个点。”这一观点引发了一个问题:训练数据是否是决定模型能否准确回答问题、绘制图像或生成逼真场景的最重要因素?

统计机器

生成式人工智能系统本质上是概率模型,依赖于大量的统计数据。它们通过分析大量示例数据来猜测数据的最佳位置,例如在句子“I go to the market”中,将“go”放在“to the market”之前。因此,模型所依据的示例数据越多,其性能通常越好。

Allan AI 的高级应用研究科学家凯尔·洛在接受 TechCrunch 采访时表示:“性能提升似乎主要来自数据。”他提到,尽管 Meta 的 Llama 3 模型在结构上与 AI2 的 OLMo 模型相似,但由于接受了更多的数据训练,Llama 3 在多项人工智能基准测试中表现更佳。

然而,洛也指出,模型操作遵循“输入垃圾,输出垃圾”的原则,这意味着数据的筛选和质量至关重要,可能比数据的数量更为重要。他强调:“一个精心设计数据训练出来的模型,其性能将远超仅依赖大量低质量数据的模型。”

尽管如此,AI 行业广泛使用的基准测试并不一定是评估模型表现的最佳指标。除了定性测试外,这些基准测试是我们少数可依赖的度量标准之一。

正文完
 0
admin-gah
版权声明:本文于2024-06-02转载自Techcrunch,共计672字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码