半监督学习提出的背景
数据是机器学习的基础。巧妇难为无米之炊,再牛x的机器学习算法,脱离了数据就是空中楼阁。
根据使用的数据样本是否具有标签,可大致将传统的机器学习方法分为监督学习方法和无监督学习方法。
其中,无监督学习方法使用的训练样本没有标签;监督学习方法使用的训练样本带有明确的标签。
监督学习:训练样本集不仅包含样本,还包含这些样本对应的标签,即样本和样本标签成对出现。监督学习的目标是从训练样本中学习一个从样本到标签的有效映射,使其能够预测未知样本的标签。监督学习是机器学习中最成熟的学习方法,代表性的算法包括神经网络、支持向量机(SVM)等。
无监督学习:只能利用训练样本的数据分布或样本间的关系将样本划分到不同的聚类簇或给出样本对应的低维结构。因此,无监督学习常被用于对样本进行聚类或降维,典型的算法包括尺均值聚类和主成分分析等。
在许多实际问题中,有标签样本和无标签样本往往同时存在,且无标签样本较多,而有标签样本则相对较少。虽然充足的有标签样本能够有效提升学习性能,但是获取样本标签往往是非常困难的,因为标记样本可能需要专家知识、特殊的设备以及大量的时间。相比于有标签样本,大量的无标签样本广泛存在且非常容易收集。但是,监督学习算法无法利用无标签样本,在有标签样本较少时,难以取得较强的泛化性能。虽然无监督学习算法能够使用无标签样本,但准确性较差。
现有的特征选择方法可分为:无监督特征选择方法和监督特征选择方法。其中,无监督特征方法利用训练样本的数据分布信息(如训练样本的方差以及局部结构等)去评估特征的关联性,大部分是利用到统计信息;而监督学习的特征选择方法通常根据样本特征与样本标签之间的相关性对特征进行排序。由于缺少样本标签的引导,无监督特征选择方法可能无法选择出有效的特征,也就是会缺乏先验知识,无法自主决策判断真假,显得比较“笨拙”。基于监督学习的特征选择方法虽然能够根据样本标签选择出可以区分不同标签样本的特征子集,但是该类方法的性能取决于是否有充足的有标签样本。因此,在有标签样本较少时,如何利用无标签样本提升学习性能己成为机器学习及其应用中的重要研究问题。
针对以上问题,学者们想:能否在训练过程中同时使用有标签样本和无标签样本,由此提出了半监督学习。
半监督学习:在少量样本标签的引导下,能够充分利用大量无标签样本提高学习性能,避免了数据资源的浪费,同时解决了有标签样本较少时监督学习方法泛化能力不强和缺少样本标签引导时无监督学习方法不准确的问题。由于能够同时使用有标签和无标签样本,半监督学习己成为近年来机器学习领域的热点研究方向,并被应用于图像识别、自然语言处理和生物数据分析等领域。根据不同的学习场景,现有的半监督学习算法可分为四类:半监督分类、半监督回归、半监督聚类以及半监督降维。其中,半监督分类是半监督学习中研宄最多的问题。本文主要研宄半监督分类,文中半监督学习即指半监督分类。
半监督学习算法分类
半监督算法可以分为两类:直推式和归纳式。
直推式半监督中只包含有标签样本集和测试样本集,且测试样本也是无标签样本。直推式半监督算法先将测试样本视为无标签样本,然后利用有标签样本和无标签样本训练模型,并在训练过程中预测无标签样本。因此,直推式半监督算法只能处理当前的无标签样本(测试样本),不能直接进行样本外的扩展。对于新的测试样本,直推式半监督算法需要重新训练模型才能预测其标签。
归纳式半监督算法除了使用有标签样本集和无标签样本集外,还使用独立的测试样本集。归纳式半监督算法能够处理整个样本空间中的样本。归纳式半监督算法在有标签样本和无标签样本上训练学习模型。该模型不仅可以预测训练无标签样本的标签,还能直接预测新测试样本的标签。
听起来确实很绕……这也不是很重要。
半监督学习的主要目标是利用隐藏在大量无标签样本中的数据分布信息来提升仅使用少量有标签样本时的学习性能。由于有标签样本较少,为了有效利用大量的无标签样本,半监督学习需要采用合适的半监督假设将学习模型和无标签样本的数据分布联系起来。研宄也表明:半监督学习方法的性能依赖于所用的半监督假设!(CHAPELLE O. 2006)
当使用的半监督假设满足数据分布时,半监督学习方法使用无标签样本能够有效提升学习性能,否则使用无标签样本将很难提升性能。在半监督学习中,常用的假设有两种,即半监督聚类假设和半监督流形假设。其中,半监督聚类假设假定位于相同聚类簇内的样本更可能具有相同的标签;半监督流形假设假定位于一个低维流形的局部极小邻域内的样本更可能具有相似标签。半监督聚类假设关注样本空间的整体特征,它利用大量无标签样本探测样本分布稠密和稀疏的区域,从而更好地约束决策边界。半监督流形假设主要关注样本空间的局部特征,它利用大量的无标签样增加样本空间的密度,从而更准确地获取样本的局部近邻关系。
基于聚类假设的半监督算法通常要求决策边界穿过样本分布稀疏的区域,并能最大化不同聚类簇间的类间间隔。通过利用无标签样本约束目标函数,基于聚类假设的算法能够同时优化有标签样本和无标签样本的类间间隔。近年来,研宄者提出了很多基于聚类假设的半监督学习算法,其中最主要的是基于最大间隔准则的半监督支持向量机算法。半监督支持向量机通过优化有标签和无标签样本到决策边界的最小间隔,使决策边界在区分有标签样本的前提下穿过样本分布稀疏的区域。
基于流形假设的半监督算法要求决策边界在数据嵌入到的低维流形上平稳地变化。由于实际训练样本的流形结构通常是未知的,研究者使用定义在训练样本的数据图去刻画数据的低维流形结构,由此提出了基于图的半监督学习算法。
半监督算法研究现状
半监督学习的思想,最早可追溯到1994年IEEE出版的一篇文献Shahshahani等写的。如今的相关理论和算法也很多,自行搜索。
半监督学习中待研究的问题
中科大的江博士将半监督学习算法中亟待研究的问题归为下述三类:
1、无标签样本的有效利用问题。
常用的半监督学习算法在训练阶段直接使用所有的无标签样本,没有考虑无标签样本的可靠性。例如,半监督支持向量机算法使用所有的无标签样本去约束目标函数,基于图的半监督学习算法利用所有的无标签样本去构建近邻图。实际上,大量无标签样本中通常存在一些低质且无关的样本。直接使用这些无标签样本会影响算法的性能,当所用半监督假设不满足数据分布时,甚至会降低算法的性能。因此,如何更加有效地使用无标签样本,降低无关的无标签样本对算法性能的影响,是半监督学习亟需解决的问题。
——我的理解是,简单来说就说无标签样本里没用的垃圾怎么处理掉。但这些垃圾不是真的一无是处,可能只是不存在于已有标签范围内的物品,比如我们有的标签是cat,dog,无标签样本里有个pig,pig也是一个有尊严的类别,不是垃圾物,直接丢掉?不合适;放进来训练?那它到底归成cat还是dog呢?
2、大量无标签样本的高效使用问题。
在算法训练过程中,直接使用所有的无标签样本不仅会影响算法的性能,还会显著降低算法的计算效率。常用的半监督学习算法具有较高的时间复杂度,只能处理小规模数据,且可扩展性较差。因此,在有效利用无标签样本的前提下,如何高效使用大量的无标签样本,从而提升算法的性能和可扩展性,是使用半监督学习技术处理大规模数据时亟需解决的问题。
——如何考虑/评估不同无标签样本对算法整体的的贡献。
3、特征选择中的有效性问题。
在特征选择领域,基于现有半监督学习范式的特征选择算法不加区别地使用少量有标签样本和大量无标签样本设计用于选择特征的评估标准或目标函数,同样没有考虑无标签样本的可靠性。此外,这些算法不能同时选择特征并基于所选特征训练分类器。这些问题严重影响了半监督特征选择算法的有效性。因此,如何有效地区分无标签样本的质量差异,增强算法对无标签噪声样本的鲁棒性,实现相关特征子集的自动选择,是半监督学习在特征选择应用中亟待解决的问题。
——如何自适应地选取有效的特征。
本文转自 CSDN,为博主 奔跑的Yancy 原创文章,
遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lyxleft/article/details/103738326