共计 1945 个字符,预计需要花费 5 分钟才能阅读完成。
人体不断产生各种生物信号,这些信号可以通过可穿戴设备从体外测量。从心率到睡眠状态和血氧水平,这些生物信号能够反映情绪波动,或用于诊断各种身体或脑部疾病。
收集大量生物信号数据的成本相对较低。研究人员可以组织一项研究,要求参与者使用类似于智能手表之类的可穿戴设备几天。然而,要教会机器学习算法找到特定生物信号与健康障碍之间的关系,首先需要教会算法识别该障碍。这就是像计算机工程师这样的人发挥作用的地方。
目前,许多商用智能手表,如苹果、AliveCor、谷歌和三星的产品,支持心房颤动的检测。心房颤动是一种常见的心律不齐类型,如果不及时治疗可能会导致中风。自动检测心房颤动的一种方法是训练机器学习算法识别数据中房颤的表现形式。
这种机器学习方法需要大规模的生物信号数据集,其中房颤的实例被标记。算法可以使用这些标记实例来学习识别生物信号与房颤之间的关系。
标记过程可能非常昂贵,因为它需要专家(如心脏病专家)检查数百万个数据点并标记每个房颤实例。同样的问题也适用于许多其他生物信号和疾病。
为了解决这个问题,研究人员一直在开发用更少标签训练机器学习算法的新方法。首先训练机器学习模型填补大规模未标记生物信号数据的空白,这样机器学习模型就能在较少标签的情况下学习生物信号与疾病之间的关系。这被称为预训练。即使预训练是在完全无关的生物信号上进行的,预训练也有助于机器学习模型学习生物信号与疾病之间的关系。
生物信号遍布全身,提供有关不同身体功能的信息。每一种生物信号都以非侵入性的方式测量特定的生理信号。
由于噪声或无关数据、不同人之间的生物信号差异,以及生物信号与疾病之间的关系可能不明确,找到生物信号与疾病之间的关系可能很困难。
首先,生物信号包含大量噪声。例如,当你在跑步时佩戴智能手表,手表会移动。这会导致生物信号传感器在跑步过程中记录不同位置的数据。由于位置在跑步过程中变化,生物信号值的波动可能是由于记录位置的变化,而不是生理过程的变化。
其次,每个人的生物信号都是独一无二的。例如,静脉的位置通常因人而异。这意味着,即使智能手表佩戴在每个人手腕上的相同位置,与这些静脉相关的生物信号在每个人之间的记录方式也不同。相同的基础信号(如某人的心率)会导致不同的生物信号值。
基础信号本身也可能因人而异。普通人的静息心率约为每分钟 60-80 次,但运动员的静息心率可能低至每分钟 30-40 次。
最后,生物信号与疾病之间的关系通常很复杂。这意味着仅通过观察生物信号并不能立即发现疾病。
机器学习算法使研究人员能够从数据中学习,并考虑人们的复杂性、噪声和变异性。通过使用大规模生物信号数据集,机器学习算法能够找到适用于每个人的明确关系。
研究人员可以使用未标记的生物信号数据作为机器学习算法的热身。这种热身,或预训练,为机器学习算法找到生物信号与疾病之间的关系做好准备。这有点像在公园里散步,了解地形,然后再规划跑步路线。
有许多方法可以预训练机器学习算法。在我的研究中,与 Dolby Laboratories 的研究员 Lie Lu 以及之前的研究中,机器学习算法被教导填补空白。
为此,研究人员取一个生物信号并人为地创建一定长度的空白——例如一秒钟。然后,他们教导机器学习算法填补缺失的生物信号片段。这是可能的,因为机器学习算法看到了空白前后生物信号的样子。
如果某人的心率在空白前约为每分钟 60 次,那么在一秒钟的空白中很可能会有一个心跳。在这种情况下,研究人员正在训练机器学习算法预测该心跳何时会发生。
一旦训练机器学习算法做到这一点,它就会发现某人的心率与下一次心跳发生时间之间的关系。现在,研究人员可以利用这种已经学习到的正常心率与生物信号之间的关系来训练机器学习算法。这使得算法更容易学习心率与房颤之间的关系。由于房颤的特点是快速且不规则的心跳,而算法现在擅长预测心跳何时发生,因此它可以快速学会检测这些不规则性。
填补空白的想法也可以推广到其他生物信号。之前的研究和我们的工作证实,在没有标签的情况下对一个生物信号进行预训练,可以让模型从其他生物信号中学习到临床上有用的关系,即使标签很少。这种捷径意味着研究人员可以对易于收集的生物信号进行预训练,并将机器学习模型应用于难以收集和标记的生物信号。
通过改进预训练,研究人员可以使机器学习算法在检测疾病和障碍方面更有效。预训练的改进减少了专家标记的成本和时间。
最近的一个例子是谷歌的 Loss of Pulse 智能手表功能,它使用机器学习算法进行早期检测。生物信号预训练这一新兴领域可以帮助更快地开发类似功能,使用更广泛的生物信号和针对更广泛的疾病。
随着生物信号类型的增加和数据的增多,研究人员可能能够发现显著改善疾病早期检测的关系。许多疾病和障碍发现得越早,治疗计划对患者的效果就越好。