共计 2052 个字符,预计需要花费 6 分钟才能阅读完成。
想象一下,能够加速进化——假设性地——以了解哪些基因可能对人类健康产生有害或有益的影响。进一步想象,能够快速生成新的基因序列,这些序列可能有助于治愈疾病或解决环境挑战。现在,科学家们开发了一种生成式人工智能工具,可以预测所有生命领域 DNA 中编码的蛋白质的形式和功能,识别可能对生物工程和医学有用的分子,并允许实验室通过虚拟查询运行数十种其他标准实验——在几分钟或几小时内完成,而不是几年(或几千年)。
这个开源、全访问工具名为 Evo 2,由斯坦福大学的 Brian Hie 共同领导的多机构团队开发。Brian Hie 是化学工程助理教授,也是斯坦福数据科学的教职研究员。Evo 2 在一个包含所有已知生物物种的数据集上进行了训练,包括人类、植物、细菌、阿米巴虫,甚至一些已灭绝的物种。斯坦福报告与 Hie 讨论了 Evo 2 的先进功能,为什么科学界如此渴望获得这个新工具,以及 Evo 2 如何重塑生物科学。
从左到右:Michael Poli、Brian Hie 和 Garyk Brixi。生物学是用 A、C、G 和 T 的组合编写的,这些组合可能难以理解。由助理教授 Brian Hie 共同领导的 Evo2 团队旨在使生物学语言更容易为研究人员所理解。| 视频:Kurt Hickman;图片:Andrew Brodhead
所有生命都使用四种化学物质(称为核苷酸)编码在 DNA 中。这些复杂的分子用字母 A、C、G 和 T 缩写。人类基因组长达 30 亿个核苷酸,只是这四个字母的字符串。现在,如果你把 DNA 想象成一本 30 亿字母长的书中的字符,那么单个基因就是单词。它们的拼写不同。有些字母比其他字母多。它们有不同的目的和意义——也就是说,它们有不同的功能。
通过人工智能,我们可以在所有这些代码中搜索模式,并用它来预测序列中的下一个核苷酸可能是什么。通过这种方式,Evo 2 能够生成——编写——以前从未存在过的新基因代码。使用 Evo 2,你可以输入多达 100 万个核苷酸的序列。生物学中的 100 万个核苷酸窗口很重要,因为它允许我们探索两个或多个基因之间的长距离相互作用,这些基因在 DNA 分子上可能并不物理上接近。更长的上下文窗口可以让我们发现这些长距离合作者之间的联系,而这些联系在较短的窗口中我们甚至不会知道。
老实说,Evo 1 比我们预期的更有效。Evo 1 只在约 113,000 个较简单生命形式(如细菌和古菌,称为原核生物)的基因组上进行了训练。
另一方面,Evo 2 还包括约 15,000 种植物和动物(称为真核生物)的已知基因组,其中包括人类。我们的数据集现在从约 3000 亿个核苷酸扩展到近 9 万亿个核苷酸。在安全性方面,我们排除了病毒的基因组,以防止 Evo 2 被用于创造新的或更危险的疾病。这就像地球上所有物种的代表性快照。因为它有可能改善与人类疾病相关的任务,我们觉得需要快速分享 Evo 2。
在像 ChatGPT 这样的自然语言处理器中,你可以用一些文本提示它,它会根据之前写过的单词的模式自动完成句子。Evo 2 对 DNA 做同样的事情。如果你想设计一个新基因,你可以用碱基对基因序列的开头提示模型,Evo 2 将自动完成基因。
有时,这种完成看起来与自然界中发现的基因完全一样,但其他时候,模型会做出一些改进,或以不同于进化史上任何方式编写基因。在现实世界中,这些突变是偶然发生的。通过 Evo 2,我们可以更直接地引导向具有有用功能的突变。Evo 2 还包括机器学习模型,它会告诉你序列是否存在于自然界中,并预测这个新序列在现实生活中的功能。然后我们进入实验室,合成 DNA 并将其插入活细胞中,使用 CRISPR 等基因编辑技术进行测试。本质上,Evo 2 正在加速进化,为我们探索有前途的新基因路径。
我们希望 Evo 2 有朝一日具有临床意义。它在发现方面非常出色。Evo 2 可以帮助预测哪些突变会导致致病性和疾病。每个人的 DNA 中都有随机突变,大多数情况下,它们是无害的。但在极少数情况下,它们会导致癌症或其他疾病。该模型实际上非常擅长区分哪些突变只是随机的、无害的变异,哪些会导致疾病。我们希望的最后一个领域是使用 Evo 2 设计具有特定功能的新基因序列。另一个相关的下一步是将这些模型与系统生物学模型集成,这将帮助我们了解两个或多个基因之间的相互作用以导致疾病。
这种规模的事情不能由一个人完成。涉及的三个主要机构是斯坦福大学、NVIDIA(制造 AI 计算机芯片和运行它的软件)和 Arc Institute(一个生物医学研究非营利组织,它本身是斯坦福大学、加州大学伯克利分校和加州大学旧金山分校之间的合作)。
在人员方面,我们有三个子团队。首先,机器学习团队专注于训练模型并确保计算机高效运行。然后,一旦你训练了一个模型,你需要知道它是否按预期工作。因此,有一个生物学家团队——计算、分子、系统、原核生物、真核生物学家——以确保我们获得的信息是有价值和可用的。最后,我们有一个实验生物学团队,他们合成新的 DNA,将其放入细胞中,并测试细胞以确保我们创造的东西在现实生活中有效。这都是非常艰苦的工作,我非常感谢团队中的每个人的帮助。