算法

【译】如何给你的机器学习问题选择正确的算法

随着机器学习浪潮的高涨,越来越多的算法在许多任务中表现得很好。但是我们通常不可能在事先知道哪种算法会是最优的。如果你有无限的时间逐一去尝试每一个算法那就另当别论。接下来的文章我们将依赖从模型选择和超参数调节中得到的知识向你一步一步展示如何来选择最优的算法。

原文地址:http://www.askaswiss.com/2017/02/how-to-choose-right-algorithm-for-your-machine-learning-problem.html

Step 1: 基本知识

在深入讨论之前,我们应当确保已经疏通了基本的知识点。首先,我们应该知道机器学习主要有三大分类:监督学习、无监督学习和强化学习。

  •  在监督学习中,每个数据点都有标签、类别或是数值。比如,给一幅图的标签分为猫或者狗;数值标签的例子是二手车的出售价格。监督学习的目的在于通过学习众多有标签的数据来对未来的数据做出预测——比如通过新照片识别动物(分类)、给二手车一个预测的价格。

机器学习算法中的过拟合与欠拟合

在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。

机器学习中的逼近目标函数过程

监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y).

Y=f(X)Y=f(X)

这种特性描述可以用于定义分类和预测问题和机器学习算法的领域。

从训练数据中学习目标函数的过程中,我们必须考虑的问题是模型在预测新数据时的泛化性能。泛化好坏是很重要的,因为我们收集到的数据只是样本,其带有噪音并且是不完全的。

机器学习中的泛化

在In机器学习中,我们描述从训练数据学习目标函数的学习过程为归纳性的学习。

归纳与特别的样本中学习到通用的概念有关,而这就是监督式机器学习致力于解决的问题。这与推演不同,其主要是另一种解决问题和寻求从通常的规则中找寻特别的内容。

泛化即是,机器学习模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。

好的机器学习模型的模板目标是从问题领域内的训练数据到任意的数据上泛化性能良好。这让我们可以在未来对模型没有见过的数据进行预测。

在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合.

过拟合和欠拟合是机器学习算法表现差的两大原因。

机器学习算法综述

近些年来,随着大数据、云计算、移动互联网、人工智能技术的兴起,“机器学习”成为了行业内炙手可热的一个名词。从通信互联网领域的专家,到各式各样的企业,甚至到普通的老百姓,都对“机器学习”技术略知一二。那么,机器学习到底是什么,它与我们常见的“人工智能”、“神经网络”、“数据挖掘“等相似概念都有什么关系?机器学习有那些基本分支、基本方法?在本文中,我们将用最简单易懂的语言解释这些问题。

问题一:“机器学习”和“人工智能”的关系是什么?

随着“机器学习”火起来的还有一个词语,即“人工智能”。每个人都肯定还记得不久以前的AlaphGo,随着机器打败围棋顶级高手李世石,人们也不得不感叹:“人工智能”时代真正到来了。

那么,“机器学习”和“人工智能”的关系到底是什么尼?其实,“人工智能”是一个很大的学科领域,里面包含很多子领域,如“机器学习”,“数据挖掘”,“模式识别”,“自然语言处理”等。这些子领域可能有交叉,但侧重点往往不同。比如”机器学习“就比较侧重于算法方面。总的来说,“人工智能”是一个学科领域,是我们研究的最终目的,而”机器学习“是这个领域中比较核心的,比较重要的,侧重于算法的一门学科,可以说,“人工智能”和“机器学习”是包含与被包含的关系。

基于双目视觉的无人驾驶算法

引言

基于现实世界是一个三维空间,所以对计算机视觉的研究也应该是在三维空间中进行的。在自动驾驶过程中的首要任务就是道路识别 [1],主要是图像特征法和模型匹配法来进行识别。行驶过程中需要进行障碍物检测 [2] 和路标路牌识别等,此时车辆,上的信息采集便可以运用单目视觉或者多目视觉。相比之下,运用多目视觉更具优势,获取的图像信息可构建成三维空间物体运动以及遮挡等问题对其影响较小。目前有很多智能小车的研究都是基于室内环境的研究,本文基于室外环境,采用双目摄像机模型 [3],考虑光照、路面材质等问题,采用分水岭算法 [4] 对智能车的区域进行定位,以及在行驶区域中采用多阈值 canny 算法来进行障碍物的检测,进而计算出障碍物大小位置等信息。

分水岭算法

一、C4.5 算法:

ID3 算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。

C4.5 算法核心思想是ID3 算法,是ID3 算法的改进,改进方面有:
1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)在树构造过程中进行剪枝
3)能处理非离散的数据
4)能处理不完整的数据

优点:产生的分类规则易于理解,准确率较高。

缺点:
1)在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
2)C4.5 只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

二、K means 算法:

是一个简单的聚类算法,把 n 的对象根据他们的属性分为k 个分割,k < n。算法的核心就是要优化失真函数J,使其收敛到局部最小值但不是全局最小值。

直方图均衡(HE)与局部色调映射(LTM)

直方图均衡(Histogram Equalization)是图像处理中一个十分基础的概念,具有调整图像灰度,增强对比度的作用。

限制对比度自适应直方图均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE),关于该算法的中文原理性描述可以参考网址:http://www.cnblogs.com/Imageshop/archive/2013/04/07/3006334.html

下面我按照自己的理解来介绍一下CLAHE算法:

自适应直方图均衡(AHE)算法,对于图像中存在明显比其他区域亮或者暗的地方时,普通的直方图均衡算法就不能将该处的细节信息描述出来。AHE算法通过在当前处理像素周边的一个矩形区域内进行直方图均衡,来达到扩大局部对比度,显示平滑区域细节的作用。

AHE算法的2个属性:1、AHE算法处理的局部领域,矩形领域小,局部对比度强,矩形领域大,局部对比度弱。2、如果矩形区域内的图像块信息比较平坦,灰度接近,其灰度直方图呈尖状,在直方图均衡的过程中就可能会出现过度放大噪声的情况。

图像局部特征点检测算法综述

研究图像特征检测已经有一段时间了,图像特征检测的方法很多,又加上各种算法的变形,所以难以在短时间内全面的了解,只是对主流的特征检测算法的原理进行了学习。总体来说,图像特征可以包括颜色特征、纹理特等、形状特征以及局部特征点等。其中局部特点具有很好的稳定性,不容易受外界环境的干扰,本篇文章也是对这方面知识的一个总结。

本篇文章现在(2015/1/30)只是以初稿的形式,列出了主体的框架,后面还有许多地方需要增加与修改,例如2013年新出现的基于非线性尺度空间的KAZE特征提取方法以及它的改进AKATE等。在应用方面,后面会增一些具有实际代码的例子,尤其是基于特征点的搜索与运动目标跟踪方面。

1. 局部特征点

图像特征提取是图像分析与图像识别的前提,它是将高维的图像数据进行简化表达最有效的方式,从一幅图像的 M × N × 3 的数据矩阵中,我们看不出任何信息,所以我们必须根据这些数据提取出图像中的关键信息,一些基本元件以及它们的关系。

七种常用特征工程技术

本文来自于csdn, 本文只提供一些简单的特征工程技巧,希望能够在你以后的分析中提供帮忙。

当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。

一、什么是特征工程

简单的说,特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢?因为好的特征工程很好的混合了专业领域知识、直觉和基本的数学能力。但是最有效的数据呈现其实并不涉及任何的数据运算。

本质上来说,呈现给算法的数据应该能拥有基本数据的相关结构或属性。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。事实上,好的特征甚至能够帮你实现使用简单的模型达到很好的效果。

机器学习之最小二乘法

1. 背景:

1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中,而法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而默默无闻。两人曾为谁最早创立最小二乘法原理发生争执。

1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,见高斯-马尔可夫定理。

2. 最小二乘法在机器学习中被用来

3. 高中关于最小二乘法估计

概括:

假设有若干个样本点 ( x1 , y1 ) , ( x2 , y2 ) , ( x3 , y3 ) , ( x4 , y4 ) , ( x5 , y5 ) , 求解直线y=kx+b,是的这些样本点到直线的距离最小。

我们高中的求解方式也是这样的:

图像处理分类、一般流程与算法

常用的图像处理算法:数字图像处理基础、遥感数字图像处理、机器视觉、计算机视觉

图像处理程序:C++ OpenCV、Matlab与图像处理

数字图像处理-概述

其实,造成“不可能图形”(三角形的三个角都是90°)的并不是图形本身,而是你对图形的三维知觉系统,这一系列在你知觉图形的立体心理模型时强制作用。在把二维平面图形知觉为你三维立体心理图形时,执行这一过程的机制会极大地影响你的视觉系统。

正是在这一强制执行的机制的影响下,你的视觉系统对图形中的每一个点都赋予了深度。换句话说,一幅图像的某些二维结构元素和你三维知觉解释系统的某些结构元素相对应。二维直线被解释成三维直线。二维的平面被解释为三维的平面。在透视图像中,锐角和钝角都被解释为90°角。外面的线段被看作是外形轮廓的分界线。这一外形分界线在你定义整个心理图像的外形轮廓时起着及其重要的作用。这说明,在没有相反信息的影响下,你的视觉系统总是假定你从一个主要视角观看事物。

三角形的每一个顶角都产生透视,三个90°的角,而且,每条边的距离变化不同。把三个顶角合成一个整体,就产生了一个空间不可能图形。

相对性:环境对比的影响

同步内容
--电子创新网--
粤ICP备12070055号