共计 1231 个字符,预计需要花费 4 分钟才能阅读完成。
麻省理工学院(MIT)的研究团队近日发布了一项突破性研究:他们创建了一个机器学习算法的 ’ 周期表 ’,揭示了 20 多种经典机器学习算法之间的内在联系。这一创新框架不仅展现了科学家如何融合不同方法的策略来改进现有的人工智能模型,更为开发新型算法提供了全新思路。
研究团队利用这一框架,成功将两种不同算法的核心元素相结合,开发出一种全新的图像分类算法。实验结果显示,该算法在性能上比当前最先进的方法提升了 8%。
这项研究的灵感来源于一个关键发现:所有机器学习算法本质上都在学习数据点之间的某种特定关系。虽然每种算法在实现方式上可能略有差异,但其背后的核心数学原理却是相通的。基于这一洞察,研究团队成功推导出一个统一方程,该方程成为众多经典人工智能算法的基础。他们利用这一方程重新构建了多种流行算法,并将其系统性地排列成一个表格,根据每种方法学习到的近似关系进行分类。
与化学元素周期表类似,这个机器学习周期表也包含了一些空白区域。这些空白预示着可能存在但尚未被发现的算法。研究团队已经成功利用这一框架填补了部分空白,开发出性能更优的新算法。
该研究的主要作者、MIT 研究生 Shaden Alshammari 表示:’ 这个周期表为研究人员提供了一个强大的工具包,使他们能够设计新算法,而无需从头开始重新发现已有方法中的思想。这不仅仅是一个比喻。我们开始将机器学习视为一个具有结构的系统,这是一个我们可以系统探索的空间。’
研究团队最初并未计划创建这样一个周期表。Alshammari 在加入 Freeman 实验室后,开始研究图像聚类技术。在研究过程中,她发现聚类算法与另一种经典算法——对比学习——在数学原理上存在惊人的相似性。这一发现最终引导团队推导出统一方程,并在此基础上构建了信息对比学习(I-Con)框架。
I-Con 框架展示了如何通过统一方程的视角来看待各种算法,从简单的垃圾邮件检测到支撑大型语言模型(LLM)的深度学习算法。该方程描述了算法如何找到真实数据点之间的联系,并在内部近似这些联系。每种算法都旨在最小化其学习到的近似联系与训练数据中的真实联系之间的偏差。
研究团队将 I -Con 组织成周期表,根据算法在真实数据集中连接点的方式以及算法近似这些联系的主要方式进行分类。在构建周期表的过程中,研究人员发现了多个空白区域,这些区域可能预示着尚未被发现的新算法。
研究团队已经利用这一框架开发出一种新的图像分类算法,其性能比现有最先进的方法提高了 8%。他们还展示了如何利用为对比学习开发的数据去偏技术来提高聚类算法的准确性。
该研究的资深作者、MIT 研究生兼微软高级工程经理 Mark Hamilton 表示:’ 我们已经证明,仅仅一个根植于信息科学的优雅方程,就为你提供了跨越 100 年机器学习研究的丰富算法。这为发现开辟了许多新途径。’
这项研究得到了空军人工智能加速器、国家科学基金会人工智能与基础交互研究所以及广达电脑公司的资助,其成果将在即将召开的国际学习表征会议(ICLR)上正式发布。