共计 908 个字符,预计需要花费 3 分钟才能阅读完成。
哈佛大学最近发布了一个包含近百万本公共领域书籍的数据集,专门用于训练 AI 模型。这一项目得到了微软和 OpenAI 的支持,书籍主要来源于 Google Books 扫描的已过版权保护期的书籍。
据《Wired》杂志报道,这个数据集涵盖了从莎士比亚、狄更斯到但丁的经典作品,还有一些鲜为人知的捷克数学教科书和威尔士袖珍词典。版权保护期通常在作者去世后 70 年结束,因此这些书籍现在都属于公共财产。
像 ChatGPT 这样的语言模型在训练时需要大量高质量的文本。理论上,数据量越大,模型的表现越好。然而,像 OpenAI 这样的公司获取新数据并不容易,尤其是在不违法的情况下。
《华尔街日报》和《纽约时报》等出版商已经对 OpenAI 和 Perplexity 提起了诉讼,指控它们未经许可使用了他们的数据。AI 公司的支持者则辩称,人类创作也是基于已有材料的,AI 只是做了类似的事情。他们还提到,如果新创作在实质上有所不同,那在法律上可能被认为是合理使用。但这种说法忽略了一个事实:人类无法像计算机那样快速处理数十亿条文本,所以这并不是一个公平的比较。
还有一些人认为,只要内容在开放网络上,AI 公司就可以随便使用。但这种观点在法庭上能否站得住脚,还有待观察。
为了应对这些批评,OpenAI 和 Perplexity 已经与一些内容提供商达成了协议,甚至推出了广告支持的合作伙伴计划。但说到底,这些公司也是被逼无奈。
与此同时,随着 AI 公司用完了新的内容,一些常用网络资源已经开始限制访问。Reddit 和 X 等公司意识到自己的数据价值巨大,尤其是在实时数据方面,因此它们开始积极限制数据的使用。
Reddit 通过授权 Google 使用其子版块和评论的语料库,赚了好几亿美元。埃隆·马斯克的 X 则与他的另一家公司 xAI 达成独家协议,允许其模型访问社交网络的内容。这有点讽刺,因为这些公司严密保护自己的数据,却认为媒体出版商的内容应该免费提供。
一百万本书籍对于 AI 公司来说,可能还不够用,尤其是这些书大多年代久远,不包含现代信息。为了与竞争对手区分开来,AI 公司还会继续寻求访问其他数据,尤其是独家数据。哈佛的这个数据集至少可以为那些不想陷入法律麻烦的 AI 公司提供一些帮助。