共计 1538 个字符,预计需要花费 4 分钟才能阅读完成。
随着人工智能(AI)技术的迅猛发展,化学、生物学和医学等领域的研究人员越来越多地依赖 AI 模型来提出新的假设。然而,AI 算法如何得出结论以及这些结论的普适性,往往并不清晰。波恩大学最近发表的一篇论文对此提出了警告,并探讨了研究人员在何种条件下可以对 AI 模型产生信任。该研究已发表在《Cell Reports Physical Science》期刊上。,
AI 模型的“黑箱”问题
自适应机器学习算法虽然强大,但它们有一个显著的缺点:这些模型如何做出预测的过程通常无法从外部观察到。例如,如果你向 AI 展示数千张汽车的照片,它通常能够准确识别新图片中是否包含汽车。但 AI 是否真的理解了汽车的特征,如四个轮子、挡风玻璃和排气管?还是它基于一些无关的标准,比如车顶上的天线?如果是后者,AI 甚至可能将收音机误认为汽车。
“AI 模型是黑箱,”波恩大学的 Jürgen Bajorath 教授强调说。“因此,人们不应盲目信任其结果并从中得出结论。”Bajorath 教授是 Lamarr 机器学习与人工智能研究所的负责人,也是波恩 - 亚琛国际信息技术中心(b-it)生命科学信息学项目的负责人。他在最新研究中探讨了何时可以依赖 AI 算法,以及何时不应依赖。,
可解释性的重要性
“可解释性”是 AI 研究中的一个关键概念,比喻为在黑箱上钻一个窥视孔,以便理解算法使用的标准。例如,AI 是基于车轮还是天线来识别汽车?“打开黑箱目前是 AI 研究中的一个核心话题,”Bajorath 说。“一些 AI 模型专门开发以使其他模型的结果更易理解。”
然而,可解释性只是问题的一部分。即使 AI 揭示了其决策标准,这些标准是否合理也同样重要。如果 AI 基于天线来识别汽车,人类立即知道这一特征并不合适。尽管如此,自适应模型通常用于识别人类可能忽视的大数据集中的相关性。我们就像不知道汽车是什么的外星人:外星人无法判断天线是否是一个好的识别标准。,
化学语言模型的应用与局限
“在科学中使用 AI 程序时,我们总是要问自己另一个问题,”Bajorath 强调说,“结果的可解释性如何?”化学语言模型目前在化学和药物研究中备受关注。例如,研究人员可以向 AI 提供许多具有某种生物活性的分子,AI 基于这些数据学习,并建议一种具有相同活性但结构全新的分子。这一过程被称为生成建模。然而,模型通常无法解释为什么得出这一解决方案,通常需要后续应用可解释的 AI 方法。
尽管如此,Bajorath 警告不要过度解释这些解释,即不要假设 AI 认为重要的特征确实导致了所需的活性。“当前的 AI 模型基本上对化学一无所知,”他说。“它们纯粹是统计和相关的,并注意任何区分特征,无论这些特征是否与化学或生物学相关。”尽管如此,AI 的评估可能是正确的——建议的分子可能具有所需的能力。然而,其原因可能与基于化学知识或直觉的预期完全不同。为了评估驱动预测的特征与相应自然过程结果之间的潜在因果关系,通常需要实验:研究人员必须合成并测试该分子,以及具有 AI 认为重要的结构基序的其他分子。,
合理性检查的必要性
这些测试耗时且昂贵。因此,Bajorath 警告不要过度解释 AI 结果以寻找科学上合理的因果关系。在他看来,基于科学合理性的检查至关重要:可解释 AI 建议的特征是否确实能够负责所需的化学或生物特性?是否值得追求 AI 的建议?或者它是否是一个可能的伪影,一个随机识别的相关性,如汽车天线,与实际功能完全无关?
科学家们强调,自适应算法的使用在根本上具有在科学的许多领域大幅推进研究的潜力。然而,人们必须意识到这些方法的优势——尤其是它们的弱点。,
原始出版物
Jürgen Bajorath; “ 从科学理论到预测人工智能模型的双重性 ”; Cell Reports Physical Science
主题
人工智能 机器学习
组织
波恩大学