共计 2168 个字符,预计需要花费 6 分钟才能阅读完成。
看清问题,是解决问题的第一步。无论是新型病毒的侵袭,还是阿尔茨海默病患者大脑中窃取记忆的斑块形成,可视化人体内的疾病进程是缓解人类痛苦的关键。然而,这一步骤往往是最为困难和昂贵的。
近日,弗吉尼亚理工大学的计算机科学家在《Cell Systems》期刊上发表了一项人工智能(AI)技术的重大突破,将这些模糊的疾病过程带入了清晰的视野。《Cell Systems》是一本专注于生物学研究的高影响力期刊。
计算机科学副教授 Debswapna Bhattacharya 及其研究团队开发的新工具 ProRNA3D-single,提供了一种更为准确的方法来预测和可视化新型病毒及破坏性神经系统疾病在人体内的变化,为治疗或完全预防这些疾病开辟了新途径。,
“我们的最终目标是加速药物发现过程,阻止 RNA 病毒与宿主蛋白质的相互作用,从而在感染发展为流行病之前阻止其传播,或抑制阿尔茨海默病中 RNA 结合蛋白质功能的改变。”
——Debswapna Bhattacharya,计算机科学副教授
几十年来,科学家们一直在努力理解病毒核糖核酸(RNA)如何与人类蛋白质结合形成复杂的 3D 分子结构。这些结构对于控制 SARS-CoV-2 等病原体的传播,或阿尔茨海默病等疾病的发作至关重要。
AI 系统通过创建“字母表”来代表 DNA、RNA 和蛋白质,帮助研究人员训练用于生物序列的大型语言模型(LLMs),以分析和模拟这些分子在体内的相互作用。
但 ProRNA3D-single 不仅仅是字母表。它使用 AI 生成这些分子的精细 3D 图像。
“生物 LLMs 基本上就像 ChatGPT,但用于生物序列。就像 ChatGPT 一样,我们可以向模型提问并获得答案,”Bhattacharya 说。
弗吉尼亚理工大学的团队将两个现有的生物 LLMs——一个用于蛋白质,另一个用于 RNA 序列——结合起来,创建了第三个模型,使这些 LLMs 能够“对话”。通过这些“对话”,ProRNA3D-single 可以生成病毒 RNA 与体内蛋白质相互作用的 3D 结构模型。这是一项重大突破。
“这基本上是两种不同的大型语言模型的神经配对,导致了双语推理,”Bhattacharya 说。“从计算机科学的角度来看,这本身就是一项贡献。”
即使是 Google DeepMind 和其他公司最近开发的突破性 AI 模型,也远远无法准确预测和建模蛋白质 -RNA 复合物的 3D 结构,迫使研究人员主要依赖昂贵的试错实验。
但新的 ProRNA3D-single 方法显著提高了准确性,并为 AI 辅助的科学发现开辟了一条有前途的新道路。
关于 SARS-CoV-2 等新型病毒如何进化,或痴呆症等疾病在分子水平上如何发展,人们知之甚少,但 ProRNA3D-single 帮助填补了这些空白,并生成了更准确的内部图谱。现在,药物开发者可以分析病毒附着在人类蛋白质上的位置,并设计治疗方法来阻止它们,而不是猜测。这可以大幅减少干预措施的时间和成本,并加快对疫情的反应。,
“如果你还记得 COVID-19 大流行和基于 mRNA 的疫苗,它确实帮助很大——这种疫苗之所以有效,是因为它是一种基于 RNA 的治疗方法,”该项目的四年级博士生 Sumit Tarafder 说。“3D 建模蛋白质 -RNA 相互作用至关重要,这样我们才能知道药物实际上可以靶向哪些导致疾病的分子。”
不仅如此,通过生成有关 RNA- 蛋白质相互作用的新数据,ProRNA3D-single 模型创造的见解可能为一系列疾病带来突破性治疗。
虽然弗吉尼亚理工大学的团队以病毒为案例研究,“但该方法是完全通用的。它不特定于单一类型的病毒或病毒家族,”Bhattacharya 说。“这种方法可以应用于任何用例。”
像 ProRNA3D-single 这样的创新方法并不容易。该项目已经投入了两年的工作。
校友 Rahmatullah Roche,’24,完成了大部分编码工作,在博士期间发表了十多篇关于该主题的论文。此后,他加入了哥伦布州立大学,担任终身制助理教授。
“主要的博士生们做了大量工作,”Bhattacharya 说。“他们承担了大部分繁重的工作。”
像这样的发现可以在国家甚至全球范围内改善生活,作为公共利益科学,该项目获得了美国国立卫生研究院和国家科学基金会的资助。不仅研究论文是开放获取的,Bhattacharya 还让科学家们免费试用这一新工具。,
“我们不能过分强调投资科学以造福社会的重要性。我们相信开放是让科学为每个人所接受的关键,”Bhattacharya 说。“纳税人资助我们,所以我们有义务回馈,这就是为什么我们让我们的工作开源并公开。”
该团队希望继续开发该工具,以提高其准确性,并获得更详细的各种生物过程模型。,
“我们应该不断提醒自己,问题远未解决,”Bhattacharya 说。“我们取得了进展,是的,但我们意识到这些模型还有很长的路要走。”
来源:弗吉尼亚理工大学
期刊参考:Roche, R., _et al._ (2025). Single-sequence protein-RNA complex structure prediction by geometric attention-enabled pairing of biological language models._Cell Systems_. doi.org/10.1016/j.cels.2025.101400