机器学习基本概念

demi 在周二, 05/19/2026 - 15:23 提交

一、什么是机器学习

机器学习（Machine Learning），它使计算机系统能够利用数据和算法自动学习和改进其性能，而无明确编程，Field of study that gives computers the ability to learn without being explicitly programmed.简而言之，机器学习让计算机无需明确编程，自己从大量数据中总结规律来做预测或决策。

二、机器学习的分类

机器学习最常见的类别为监督学习（Supervised Learning），此外还有无监督学习（Unsupervised Learning）和强化学习（Reinforcement Learning）等。

1. 监督学习（Supervised Learning)

监督学习为机器学习中最常见的类别。监督学习的关键特征是：给学习算法提供包含正确答案的示例。即在训练集中给出既有特征（feature）又有标签（label）的值。

比如这个数据集，假设此时我们用此房价数据集训练模型，此处特征为房屋大小，即在这个数据集中我们默认房屋大小为唯一影响价格的因素。而标签为房屋价格，即此处数据集中真实的房屋价格（而非后续模型给出的预测）。类似这种数据集中给出“正确答案”的例子叫做监督学习。

监督学习有许多常见算法：

线性回归（Linear Regression）找到一条最佳拟合线，预测连续值结果。

逻辑回归（Logistic Regression）计算某件事发生的概率（常用于分类任务）。

支持向量机（SVM）在数据点之间找到最优超平面。

决策树（Decision Trees）基于树结构的分类和回归算法，在特征上进行递归的二分决策来进行分类或预测。

K近邻算法（KNN）基于实例的学习方法，根据距离度量来对新样本进行分类或回归预测。KNN使用最接近的K个训练样本的标签来决定新样本的类别。

类似房价预测这种称为回归问题（Regression ），回归问题的特征为从无限多可能的数字中预测一个数字。比如房屋大小为1000的房子，可能价格为100，200，300，102，139.1等等，我们无法确定。而与之相对的有分类问题（Classification），与回归问题不同，此时只有几个可能的输出或类别。比如检测癌症，只可能有两种结果，患癌症或不患，这种问题叫分类问题。此时学习算法可能会找到一些边界将两种结果分开，其必须决定如何拟合一条边界线来划分这些数据。

2. 无监督学习（Unsupervised Learning）

无监督学习是机器学习中第二常见的类型。与监督学习不同的是，无监督学习的数据集只有特征而没有标签，模型需要自己去发现数据中隐藏的结构或规律。无监督学习本质上是一个统计手段，是一种在没有标签的数据里可以发现潜在的一些结构的训练方式。同时，无监督学习有许多常见算法：

聚类算法（Clustering）将未标记的数据放入不同的簇中。

降维（Dimensionality reduction）采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。

异常检测（Anomaly detection）从定义而言就是一种识别不正常情况与挖掘非逻辑数据的技术。

关联规则挖掘（Association Rule Mining）联规则挖掘用于发现数据集中项之间的关联和频繁项集。

3. 强化学习（Reinforcement Learning, RL）

旨在通过与环境的交互来学习如何做出决策。其基本思想是智能体（agent）在环境中采取行动，以最大化累积的奖励。即让一个智能体在环境中通过尝试和错误来学习行为策略。智能体通过与环境进行交互，根据奖励信号来调整其行为策略，以达到最大化累计奖励的目标。

三、训练集、验证集、测试集

在机器学习中，训练集（Training Set）、验证集（Validation Set）和测试集（Test Set）是确保模型科学开发与评估的三大核心数据集，它们各自承担不同角色，且必须严格隔离。

训练集占比通常为60%-80%，用于模型学习数据模式并更新权重参数。关键在于要数据量足够大，并进行适当的数据预处理。

验证集占比为10%-20%，用于监控训练过程与调优超参数，是调优超参数的唯一依据。

测试集占比为10%-20%，在模型开发完成后仅使用一次，用于最终无偏性能评估，模拟真实生产环境表现。

四、过拟合与欠拟合

欠拟合(Underfitting)是指模型过于简单，无法捕捉数据中的基本规律，导致在训练数据和测试数据上都表现不佳。

过拟合(Overfitting)是指模型过于复杂，不仅学习了数据中的基本规律，还学习了训练数据中的噪声和随机波动，导致在训练数据上表现极佳，但在测试数据上表现不佳。

版权声明：本文为CSDN博主「News711ss」的原创文章，
遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Obstinate_Y/article/details/161167801

机器学习降维算法一：PCA(主成分分析算法)	机器学习两种方法——监督学习和无监督学习	机器学习降维算法二：LDA（Linear Discriminant Analysis）
机器学习算法选用指南	如何为人工智能/机器学习开发选择合适的数据标注方法？	13张动图快速理解马尔科夫链、PCA、贝叶斯！

最新文章

最新文章