机器学习对自然科学是好是坏?

1. 简介

机器学习已经对自然科学的各个领域产生了重大的影响。但是,机器学习内在的本体论和认知论与自然科学中的标准实践和关键哲学都有强烈的冲突。自然科学领域的哪些地方可以发挥机器学习的价值和作用?哪些地方使用机器学习会带来不良的影响?这都是想要将机器学习技术用于自然科学领域的研究者和开发者都应该思考的问题。本文的作者既是机器学习的怀疑者也是机器学习的应用和实践者,并从物理学的独特视角对上述问题展开了如下几方面的讨论。


2. 机器学习的本体论和认知论

何为机器学习?为了便于讨论作者对机器学习下了一个更加宽泛的定义,如果一个方法的能力随着它看到更多的数据而大大增加,那么这个方法就人为是机器学习方法。何为自然科学?自然科学是研究自然界,理解观察到的现象,统一现有的知识,为新的实验和观察做出预测的科学,如物理、化学、地球科学、生态学等,其首要目的是理解。

本体论:某领域的本体是存在于该领域中的事物的集合。监督学习和无监督学习都会产生对数据的表示、描述和压缩,监督学习还会发现数据特征与标签数据之间的关系。无论哪种情况,机器学习方法的好坏都是根据其准确描述数据的能力来判断的。人们通常不会根据它们潜在结构的细节来判断它们。在这种意义上,机器学习的本体是只有数据。

与机器学习相比,自然科学本体包含远不止数据。例如,在物理学中,不仅存在数据,还存在力、能量、动量、电荷、时空、波函数、虚拟粒子等等。这些实体被认为是存在的,是原因是它们参与了物理理论中潜在结构的构建;

认知论:一个领域的认识论是指判断某事是否为正确或已知的方法或标准。如果一个经过训练的机器学习模型在测试数据上表现良好,则它被认为是成功的或正确的。这种认识论与其本体论密切相关。如果只有数据存在,那么一个模型的正确与否只能根据它所描述的数据来判断。

相反,在自然科学中的认识论比在其在机器学习领域中有更多的限制和更多的要求。一个理论或解释要被广泛接受为真理,要做的不仅仅是解释数据。以物理学为例,一个模型被认为是好,不仅仅是因为它解释了观察到的数据。它应该解释多个领域的数据,而且它必须以自然的方式与其他已经得到充分证实的理论或原则(如守恒定律和不变性)联系起来。


3. 为什么自然科学领域需要机器学习?

作者在如下几个方面讨论了为什么自然科学研究项目中需要机器学习技术

分类标记:有时,一个项目中有大量对象的信息数据,但只有少数对象的精确标签可能是通过非常仔细的分析或外部数据获得的。在这种情况下,如果标记更多的对象非常昂贵,则可以在少数标记的数据点上训练回归,然后使用训练的回归来标记所有其余的数据点。

加速决策:许多科学项目必须实时快速地做出决策。这方面最极端的例子是在粒子物理学中,探测器必须在几分之一秒内决定是否保存数据。通常情况下,经过训练的机器学习分类器可以像第一性原理模型一样再现选择边界,但计算量要少得多。

加速模拟:在许多自然科学中,模拟的计算成本往往非常昂贵,因为它们往往跨越很大的空间或时间尺度范围。可以训练机器学习模型进行模拟,或将低分辨率模拟修补为更高分辨率。

建模干扰:在大多数自然科学领域,感兴趣的量的观测或预测需要结合前景、背景、仪器或噪音源等辅助理论。当需要对这些干扰源进行有效建模,但不一定要了解其细节时,机器学习方法会很有效。

提出假设:在大多数科学环境中,如果假设可以通过实验验证,则无论产生科学假设的过程如何,都是有效的。也就是说,假设可以由不需要理解的创造性过程产生。机器学习领域的生成模型可用于推测具有某些特性的物质或材料,这些特性可以在以后的实验室分析中得到验证(如药物发现)。

异常检测:在许多科学领域,发现新的或以前未知的现象或物质都是非常重要的。天文学中最近的一个例子是快速射电暴的发现。它最初表现为成像数据中的异常值,后来被证明是有趣的物理天体。由于机器学习方法可以准确描述复杂的数据分布,因此它们也可用于识别罕见的数据点。

科学发现:目前科学界出现了一种新的希望,即经过充分训练或约束的模型可能会带来对科学理论的新见解,或者可能有效地做出根本性的发现。有一些方法是沿着符号回归的方向发展的,还有一些方法是沿着基础模型的方向发展的。事实上,在一种非常现实的意义上,基础模型背后的动机——为定性多样化的数据寻找普遍有用的潜在表征——与理论物理学背后的动机是相似的。


4. 机器学习何时对自然科学不利何时有利

不利情况:当在科学项目中引入机器学习时,会引入如下两种统计偏差,目前为止,这两种偏差都不容易纠正和消除。一种数训练集偏差的放大,训练后的机器学习模型的输出结果即依赖于输入的特征数据也依赖于训练集的总体特性。而训练集于真实值之间的偏差是不可避免的,当采用回归模型用于单个样本点的预测时,训练集引起的预测结果的偏差还是可控的。但是需要回归的输出多个样本点的预测结果,并且这些预测结果联合于测量总体或子集的属性时,会造成不可控和不可接受的偏差。另一种时确认偏差。例如当使用训练后的机器学习模型来模拟实验A和实验B时,实验A的结果常符合我们的预期而实验B的结果极度异常超出预期,当这种不一致出现时,是否可以认为实验B的结果是不真实的。由于机器学习模型的不可解释性,无法对问题的原因进行回溯。

有利情况:当将机器学习用于科学项目中不需要理解的部分时。例如实时执行和操作、异常值和罕见物体的发现、背景前景等噪音建模。这些领域都是机器学习最安全保守的使用领域。


5. 讨论

目前机器学习已经成为科学研究领域一种不可或缺的工具,科学研究需要机器学习的速度和计算规模。但是,当把机器学习引入到自然科学领域时,作者呼吁放慢脚步,多做思考,并机器学习这一强大的工具用于自然科学领域正确的地方。


参考文献
[1] Hogg, David W., and Soledad Villar. "Position: Is machine learning good or bad for the natural sciences?." Forty-first International Conference on Machine Learning.

本文转自:晟视科创,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章