共计 1627 个字符,预计需要花费 5 分钟才能阅读完成。
蛋白质是生命的基础,在人体中发挥着重要的结构和功能作用。然而,这些大分子掩盖了一类较小的蛋白质——微蛋白。微蛋白一直隐藏在 99% 被视为“非编码”的 DNA 中,潜藏在未被探索的遗传密码的广阔黑暗中。
细胞表达了一种由 ShortStop 预测的新型微蛋白(绿色),细胞核被染成蓝色。这种模式表明,微蛋白要么定位于负责分类和运输细胞货物的内体,要么定位于收集和清除细胞废物的溶酶体。图片来源:Salk 研究所
Salk 研究所的科学家们正在探索基因组的神秘“暗面”,以寻找微蛋白。借助他们的新工具 ShortStop,研究人员可以探测基因数据库,并识别基因组中可能编码微蛋白的 DNA 片段。
重要的是,ShortStop 还能预测哪些微蛋白最有可能具有生物学意义,从而节省了寻找与健康和疾病相关的微蛋白的时间和成本。ShortStop 为现有数据集带来了新的视角,揭示了以前无法找到的微蛋白。
事实上,Salk 团队已经使用该工具分析了一个肺癌数据集,发现了 210 个全新的微蛋白候选者——其中一个已被验证的微蛋白——可能在未来成为良好的治疗靶点。
“我们体内的大多数蛋白质都是众所周知的,但最近的发现表明,我们可能遗漏了数千种由基因组中被忽视区域编码的小型隐藏蛋白质——微蛋白,”Salk 研究所教授、Frederik Paulsen 博士主席 Alan Saghatelian 说。
由于微蛋白的尺寸较小,检测和分类它们非常困难。与通常包含数百到数千个氨基酸的标准蛋白质相比,微蛋白通常包含少于 150 个氨基酸,这使得它们更难通过标准的蛋白质分析方法检测到。
科学家们现在已经了解到,某些被称为小开放阅读框(smORFs)的 DNA 片段可能包含制造微蛋白的指令。目前的实验方法已经分类了数千个 smORFs,但这些工具仍然耗时且昂贵。
ShortStop 的工作原理
并非所有 smORFs 都能翻译为具有生物学意义的微蛋白。现有方法无法区分功能性和非功能性微蛋白生成的 smORFs。这意味着科学家们必须独立测试每个微蛋白,以确定其是否具有功能性。
ShortStop 从根本上改变了这一工作流程,通过将微蛋白分类为功能性和非功能性来优化 smORF 的发现。ShortStop 的二分分类的关键在于它作为机器学习系统的训练方式。
它的训练依赖于计算机生成的随机 smORFs 的负控制数据集。ShortStop 将找到的 smORFs 与这些诱饵进行比较,以快速决定新的 smORF 是否可能具有功能性。
当研究人员将 ShortStop 应用于先前发布的 smORF 数据集时,他们识别出 8% 的可能具有功能性的微蛋白,优先考虑它们进行有针对性的后续研究。
“ShortStop 特别强大的地方在于,它可以处理常见的数据类型,如 RNA 测序数据集,许多实验室已经在使用这些数据,”Saghatelian 实验室的博士后研究员、第一作者 Brendan Miller 说。
ShortStop 发现与肺癌相关的微蛋白
研究人员已经使用 ShortStop 识别了一种在肺癌肿瘤中上调的微蛋白。他们分析了人类肺肿瘤和邻近正常组织的遗传数据,以创建潜在功能性 smORFs 的列表。
在 ShortStop 发现的 smORFs 中,有一个脱颖而出——它在肿瘤组织中的表达比正常组织更多,表明它可能作为肺癌的生物标志物或功能性微蛋白。
“有如此多的现有数据,我们现在可以用 ShortStop 处理这些数据,以发现与健康和疾病相关的新微蛋白,从阿尔茨海默病到肥胖症,甚至更多,”Saghatelian 说。
Brendan Miller(左)和 Alan Saghatelian(右)站在他们的实验室中,ShortStop 在他们旁边的桌面上运行。图片来源:Salk 研究所
更多信息:ShortStop:微蛋白发现的机器学习框架,《BMC 方法》(2025)。[DOI: 10.1186/s44330-025-00037-4](https://dx.doi.org/10.1186/s44330-025-00037-4)