你绝对能懂的“机器学习”（五）

demi 在周五, 04/12/2019 - 10:21 提交

我们发展人工智能，核心目的是为了用人工智能来解决我们日常工作生活中的各种问题，机器学习当然也不例外。那机器学习适合解决哪些问题呢？

首先，我们一定要知道，机器学习不是万能的。你要问机器学习能不能解决光速星际旅行，能不能造出飞碟、宇宙飞船、火箭，我肯定的说不能。你要问机器学习能不能预测房价、股市的涨跌，我只能说可能行，但非常难实现。因为涉及因素太多，训练出来的模型不可能精确。

其次，我们要认识到日常工作生活中的最大任务是“决策”。不管是商业上的决策，上不上这个产品，投不投这个项目，要不要加大营销力度。还是工作生活中的决策，上哪个大学，学什么专业，买不买房，上哪吃饭，看不看电影等等。我们无时无刻不在做着“决策”。

最后，“决策”背后的本质是“分类”。这些房子好，那些房子差，这个电影好看，那个不好看，这个餐馆好吃，那个餐馆不好吃。有了“分类”，是不是决策起来就容易的多，而我们“决策”的过程本质上就是一个“分类”的过程。

所以，机器学习的主要任务就是分类。

我们以前介绍过，机器学习就是让计算机学会利用过往的经验完成指定任务。我们的目的是完成指定任务。但当时我们对指定任务是什么并没有说明。

这个指定任务一般分为3类：分类，聚类，回归。也就是说机器学习的任务就是完成这3类指定任务，其中分类是核心。

我们知道，开展机器学习有个前提：必须有过往的经验，或者说有过往的数据。这个数据的集合叫数据集。数据集的一般形式是：

注意这个结果标记。如果结果标记是类别数据，那么机器学习的主要任务就是分类。如果是结果标记是数值数据，那么机器学习的主要任务就是回归。如果没有结果标记，而是需要将数据集分成不同的类别，那么机器学习的主要任务就是聚类。

举个鸟物种例子：

这个数据集的结果标记是红尾鸟、蜂鸟、啄木鸟等，属于类别数据。如果我们找到一种鸟，测量其体重、翼展、脚蹼、后背颜色4个属性数据，例如是550克，74cm，无，黑色，通过机器学习就可以判定这种鸟属于啄木鸟。

像这样的机器学习任务就是“分类”。

我们再看个一个北京二手房的例子：

这个数据集的结果标记690万元、440万元等属于数值数据。如果我们要买一套二手房，希望了解其大致价格，通过面积、区域、学区、装修4个属性数据，通过机器学习就可以预测这个二手房的价格是多少，这个任务就是“回归”。

至于为什么叫“回归”，这个是舶来词，是英文“regression”翻译过来的。翻译词的特点是带有原词的主要含义，但与原词表达的意思又不完全一样，甚至从中文字面上难以理解，例如大家最熟悉的函数，就是function的翻译词，在我们中学刚学“函数”这个词时，其含义并不是那么显而易见的。回归（regression）也一样，不好直白理解。简单化理解就像“地理上的回归线”一样，“回去归来，回归于事物的本来面目”。

也不用太纠结，在机器学习中，你记住以后看到需要预测出来的结果标记为数值型的，例如房价，体重，股票价格等，也就是与“实数”相关的，就叫做“回归”。

对于“聚类”，用个比较形象的词语就是“人以类聚，物以群分”。聚类不是用来做预测的，而是对事物进行“分门别类”的。例如前面那个鸟物种的例子，你现在是鸟类专家，抓住了1000只鸟，你根据这些鸟的特征，对这些鸟分别进行观察，长的很像的就聚为一类，例如有长嘴巴的就聚为啄木鸟类，有红尾巴的就聚为红尾鸟类。你办公室里有30名同事，你爱好抽烟，你根据观察和测试，逐渐把这30人聚成了抽烟和不抽烟的2类，于是工间休息期间你就知道找抽烟的那一类人。当然，你还可以把这30人聚成抽烟的、偶尔抽一下的、完全不抽的3类人。你还可以根据打羽毛球把30名同事分成会打的、不会打的2类，或者很会打的，一般的，完全不会的3类。也就是说聚类的个数和每个类别的内容是不定的，根据你的实际需要确定。

来源：CSDN，作者：saltriver，转载此文目的在于传递更多信息，版权归原作者所有。
原文链接：https://blog.csdn.net/saltriver/article/details/70187876

盘点2024年大数据分析十大新趋势	影响大数据、机器学习和人工智能未来发展的8个因素	如何利用人工智能和机器学习来增强物联网安全
如何为人工智能/机器学习开发选择合适的数据标注方法？	2025年实现高级威胁检测的10种先进技术	IDC：《2021年中国智能决策解决方案市场份额》研究发布

最新文章

最新文章