共计 717 个字符,预计需要花费 2 分钟才能阅读完成。
最近和几位从事 AI 研究的朋友聊天时,大家都不约而同地提到了一个令人担忧的问题 – 我们可能已经把能用的真实数据都用完了。这让我想起上个月马斯克在 X 平台直播时说的那番话,他说现在 AI 训练基本上已经把人类积累的知识 ” 榨干 ” 了。说实话,听到这个还是挺震撼的,毕竟我们总觉得数据是取之不尽的。
记得去年参加一个 AI 论坛,OpenAI 的前首席科学家就提到过 ” 数据峰值 ” 这个概念。当时还觉得有点危言耸听,现在看来还真是一语成谶。不过话说回来,人类在困境中总能找到出路,现在各大科技公司都在探索用 AI 自己生成数据来训练 AI,也就是所谓的合成数据。这让我想起小时候玩俄罗斯方块,方块掉得越快,反而越能激发我的潜力。
微软、谷歌这些大厂已经在这么做了。前几天看到新闻说微软新发布的 Phi- 4 模型就是混合了真实和合成数据训练的。不过说实话,这种 ” 自产自销 ” 的方式总让我觉得有点怪怪的,就像用自己写的作业来教自己写作业一样。而且有研究表明,这样可能会导致模型变得越来越死板,甚至产生偏见。
说到成本,合成数据确实能省不少钱。有家叫 Writer 的初创公司说他们用合成数据开发的模型只花了 70 万美元,相比 OpenAI 动辄几百万的投入,这简直是白菜价。但便宜归便宜,效果如何还得打个问号。毕竟,就像我奶奶常说的:” 便宜没好货,好货不便宜。”
总的来说,AI 发展到现在这个阶段,确实遇到了瓶颈。但换个角度想,这也许是个契机,逼着我们去探索新的技术路径。就像当年石油危机推动了新能源的发展一样,数据危机说不定也能催生出 AI 领域的革命性突破。只是希望在这个过程中,我们不要为了追求效率而牺牲了 AI 的创造力和多样性。毕竟,一个只会重复自己的 AI,和一台高级点的复读机又有什么区别呢?