哈佛大学开放百万书籍，助力AI模型训练

91次阅读

共计 908 个字符，预计需要花费 3 分钟才能阅读完成。

哈佛大学最近发布了一个包含近百万本公共领域书籍的数据集，专门用于训练 AI 模型。这一项目得到了微软和 OpenAI 的支持，书籍主要来源于 Google Books 扫描的已过版权保护期的书籍。

哈佛大学开放百万书籍，助力 AI 模型训练

据《Wired》杂志报道，这个数据集涵盖了从莎士比亚、狄更斯到但丁的经典作品，还有一些鲜为人知的捷克数学教科书和威尔士袖珍词典。版权保护期通常在作者去世后 70 年结束，因此这些书籍现在都属于公共财产。

像 ChatGPT 这样的语言模型在训练时需要大量高质量的文本。理论上，数据量越大，模型的表现越好。然而，像 OpenAI 这样的公司获取新数据并不容易，尤其是在不违法的情况下。

《华尔街日报》和《纽约时报》等出版商已经对 OpenAI 和 Perplexity 提起了诉讼，指控它们未经许可使用了他们的数据。AI 公司的支持者则辩称，人类创作也是基于已有材料的，AI 只是做了类似的事情。他们还提到，如果新创作在实质上有所不同，那在法律上可能被认为是合理使用。但这种说法忽略了一个事实：人类无法像计算机那样快速处理数十亿条文本，所以这并不是一个公平的比较。

还有一些人认为，只要内容在开放网络上，AI 公司就可以随便使用。但这种观点在法庭上能否站得住脚，还有待观察。

为了应对这些批评，OpenAI 和 Perplexity 已经与一些内容提供商达成了协议，甚至推出了广告支持的合作伙伴计划。但说到底，这些公司也是被逼无奈。

与此同时，随着 AI 公司用完了新的内容，一些常用网络资源已经开始限制访问。Reddit 和 X 等公司意识到自己的数据价值巨大，尤其是在实时数据方面，因此它们开始积极限制数据的使用。

Reddit 通过授权 Google 使用其子版块和评论的语料库，赚了好几亿美元。埃隆·马斯克的 X 则与他的另一家公司 xAI 达成独家协议，允许其模型访问社交网络的内容。这有点讽刺，因为这些公司严密保护自己的数据，却认为媒体出版商的内容应该免费提供。

一百万本书籍对于 AI 公司来说，可能还不够用，尤其是这些书大多年代久远，不包含现代信息。为了与竞争对手区分开来，AI 公司还会继续寻求访问其他数据，尤其是独家数据。哈佛的这个数据集至少可以为那些不想陷入法律麻烦的 AI 公司提供一些帮助。

正文完