一、什么是机器学习
机器学习(Machine Learning),它使计算机系统能够利用数据和算法自动学习和改进其性能,而无明确编程,Field of study that gives computers the ability to learn without being explicitly programmed.简而言之,机器学习让计算机无需明确编程,自己从大量数据中总结规律来做预测或决策。
二、机器学习的分类
机器学习最常见的类别为监督学习(Supervised Learning),此外还有无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)等。
1. 监督学习(Supervised Learning)
监督学习为机器学习中最常见的类别。监督学习的关键特征是:给学习算法提供包含正确答案的示例。即在训练集中给出既有特征(feature)又有标签(label)的值。

比如这个数据集,假设此时我们用此房价数据集训练模型,此处特征为房屋大小,即在这个数据集中我们默认房屋大小为唯一影响价格的因素。而标签为房屋价格,即此处数据集中真实的房屋价格(而非后续模型给出的预测)。类似这种数据集中给出“正确答案”的例子叫做监督学习。
监督学习有许多常见算法:
线性回归(Linear Regression)找到一条最佳拟合线,预测连续值结果。
逻辑回归(Logistic Regression)计算某件事发生的概率(常用于分类任务)。
支持向量机(SVM)在数据点之间找到最优超平面。
决策树(Decision Trees)基于树结构的分类和回归算法,在特征上进行递归的二分决策来进行分类或预测。
K近邻算法(KNN)基于实例的学习方法,根据距离度量来对新样本进行分类或回归预测。KNN使用最接近的K个训练样本的标签来决定新样本的类别。
类似房价预测这种称为回归问题(Regression ),回归问题的特征为从无限多可能的数字中预测一个数字。比如房屋大小为1000的房子,可能价格为100,200,300,102,139.1等等,我们无法确定。而与之相对的有分类问题(Classification),与回归问题不同,此时只有几个可能的输出或类别。比如检测癌症,只可能有两种结果,患癌症或不患,这种问题叫分类问题。此时学习算法可能会找到一些边界将两种结果分开,其必须决定如何拟合一条边界线来划分这些数据。
2. 无监督学习(Unsupervised Learning)
无监督学习是机器学习中第二常见的类型。与监督学习不同的是,无监督学习的数据集只有特征而没有标签,模型需要自己去发现数据中隐藏的结构或规律。无监督学习本质上是一个统计手段,是一种在没有标签的数据里可以发现潜在的一些结构的训练方式。同时,无监督学习有许多常见算法:
聚类算法(Clustering)将未标记的数据放入不同的簇中。
降维(Dimensionality reduction)采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。
异常检测(Anomaly detection)从定义而言就是一种识别不正常情况与挖掘非逻辑数据的技术。
关联规则挖掘(Association Rule Mining)联规则挖掘用于发现数据集中项之间的关联和频繁项集。
3. 强化学习(Reinforcement Learning, RL)
旨在通过与环境的交互来学习如何做出决策。其基本思想是智能体 (agent)在环境中采取行动,以最大化累积的奖励。 即让一个智能体在环境中通过尝试和错误来学习行为策略。智能体通过与环境进行交互,根据奖励信号来调整其行为策略,以达到最大化累计奖励的目标。
三、训练集、验证集、测试集
在机器学习中,训练集(Training Set)、验证集(Validation Set) 和 测试集(Test Set) 是确保模型科学开发与评估的三大核心数据集,它们各自承担不同角色,且必须严格隔离。
训练集占比通常为60%-80%,用于模型学习数据模式并更新权重参数。关键在于要数据量足够大,并进行适当的数据预处理。
验证集占比为10%-20%,用于监控训练过程与调优超参数,是调优超参数的唯一依据。
测试集占比为10%-20%,在模型开发完成后仅使用一次,用于最终无偏性能评估,模拟真实生产环境表现。
四、过拟合与欠拟合
欠拟合(Underfitting)是指模型过于简单,无法捕捉数据中的基本规律,导致在训练数据和测试数据上都表现不佳。
过拟合(Overfitting)是指模型过于复杂,不仅学习了数据中的基本规律,还学习了训练数据中的噪声和随机波动,导致在训练数据上表现极佳,但在测试数据上表现不佳。
版权声明:本文为CSDN博主「News711ss」的原创文章,
遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Obstinate_Y/article/details/161167801





