机器学习

机器学习实践中应避免的七种常见错误

统计建模和工程开发很相似。在工程开发中,人们有多种方法搭建一套键-值存储系统,每种设计针对使用模式有一套不同的假设。在统计建模中,也有很多算法来构造一个分类器,每种算法对数据也有各自的假设集合。

当处理少量数据时,因为实验成本很低,我们尽可能多的尝试各种算法,从而选出效果最优的算法。但提到“大数据”,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,产品化)是事半功倍的。

正如在我以前的文章里提到,每个给定的建模问题都存在几十种解法。每个模型会提出不同的假设条件,我们也很难直观辨别哪些假设是合理的。在业界,大多数从业人员倾向于挑选他们熟悉的建模算法,而不是最适合数据集的那个。在这篇文章中,我将分享一些常见的认识误区(要避免的)。在今后的文章中再介绍一些最佳实践方法(应该做的)。

1. 想当然地使用默认损失函数

干货:你知道模型参数和超参数之间的区别吗?

翻译 | AI科技大本营(rgznai100)
参与 | 姜沂,焦燕

导语

机器学习中的模型参数和模型超参数在作用、来源等方面都有所不同,而模型超参数常被称为模型参数,这样,很容易对初学者造成混淆。本文给出了模型参数和模型超参数的定义,并进行了对比,指出了二者本质上的区别:模型参数是模型内部的配置变量,可以用数据估计模型参数的值;模型超参数是模型外部的配置,必须手动设置参数的值。

我们在做研究的时候,会碰到很多术语。有时,在不同的研究领域还会出现同样名称的术语。比如,统计学、经济学中经常使用的“模型参数”和“模型超参数”,在机器学习中也同样存在。

机器学习领域中的“模型参数”“模型超参数”在作用、来源等方面都有所不同,初学者如果对二者没有明确的认识,学习起来往往会比较吃力,尤其是那些来自统计学和经济学领域的初学者们。

为了让大家在应用机器学习时,对“参数模型”和“超参数模型”有一个清晰的界定,在这篇文章中,我们将具体讨论这两个术语。

首先,我们来看一下“参数”是什么?

参数作为模型从历史训练数据中学到的一部分,是机器学习算法的关键。

机器学习中的损失函数

作者: 张俊红

在机器学习中,同一个数据集可能训练出多个模型即多个函数(如下图所示,同样的数据集训练出三种不同的函数),那么我们在众多函数中该选择哪个函数呢?首选肯定是那个预测能力较好的模型,那么什么样的函数/模型就是预测好的呢?有没有什么评判标准?

机器学习中的损失函数

损失函数和风险函数

前面说过我们应该首选那个预测能力较好的模型,那么该怎么判断预测能力的好坏呢?模型是用来做预测的,那么好的模型肯定是准确率较高的,也就是预测值和实际值之间的误差较小。

机器学习:集成学习(ensemble learning)(一)——原理概述

集成学习(ensemble learning)

集成学习通过构建多个个体学习器,然后再用某种策略将他们结合起来,产生一个有较好效果的强学习器来完成任务。基本原理如下图所示。这里主要有三个关键点:个体学习器的同质异质、个体学习器的生成方式、结合策略。

机器学习:集成学习(ensemble learning)(一)——原理概述

  •   同质异质

首先需要明确的是个体学习器至少不差于弱学习器。弱学习器常指泛化性能略优于随机猜测的学习器,例如二分类问题中精度略高于50%的分类器。对于训练数据若集成中的个体学习器为同一类型,例如都为BP神经网络或者都为决策树,则称同质集成。同样的道理,若个体学习器类型不同,例如既有决策树又有神经网络,则称异质集成。

  •   个体学习器的生成方式

深入机器学习之集成学习

集成学习体现了“More is always better”(多多益善)的思想,它是是目前机器学习的一大热门方向,所谓集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。

深入机器学习之集成学习

这张图片很清楚显示出其原理,假设需要预测的对象很大,每个模型可能只能处理其部分问题,多训练一些模型就能更有效率也更准确地得到预测结果。

1、Ensemble综述

(1) 概念:
  •   训练多个模型解决同一问题,组合后模型的泛化能力很有可能变强。
  •   即使某些分类器出错,其他分类器有希望将其纠正。
  •   集成学习也被称为committee-based learning或者multiply classifier systems。
  •   在竞赛和科研中有广泛应用。

(2)结构

盘点一下那些不知不觉中已经渗入生活的AI技术...

人工智能正越来越多的渗透入人们的生活,改变人们的生活,从自然语言生成到语音识别、从医疗诊断到商业决策,AI逐渐开始显露出巨大的优势,并且它的脚步不会停止。

1. 自然语言生成(NLG)

自然语言生成是人工智能的一个子学科,它可以将海量的数据转换成人类可读的文本,通过这样的方式实现与人类的交流。目前主要的应用是为客户提供报告生成和市场摘要等服务。通过对数据的分析、挖掘理解,从数据中抽取出有效的信息并总结成文本输出。优秀的AI还能实现自动排版和美化,做到可读性与优良的可视化效果。

盘点一下那些不知不觉中已经渗入生活的AI技术...

目前该技术主要由Attivio, Automated Insights, Cambridge Semantics, Digital Reasoning, Lucidworks, Narrative Science, SAS, and Yseop等公司提供。

深入机器学习之自然语言处理

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着深度学习在图像识别、语音识别领域的大放异彩,人们对深度学习在NLP的价值也寄予厚望。自然语言处理作为人工智能领域的认知智能,成为目前大家关注的焦点。

基本概念

  •  自然语言处理既是一门技术也是一门学科。
  •  自然语言指人类使用的语言,如汉语、英语等
  •  语言是思维的载体,是人类交流的工具
  •  语言的两种属性:文字和声音
  •  人类历史上以文字形式记载和流传的知识占80%以上。

自然语言处理的定义:
"自然语言处理又称为自然语言理解,就是利用计算机为工具对人类特有的书面形式和又头形式的自然语言的信息进行各种类型处理和加工的技术。” —— 冯志伟《自然语言的计算机处理》

研究的基本问题

1. 语音学

2018年人工智能和机器学习的顶级趋势

自从人工智能(AI)这个术语在1955年由美国达特茅斯学院的人工智能大师John McCarthy创造以来,已经得到了长足的进步。63年之后,人工智能正在改变和颠覆医疗保健、金融科技以及其他行业的业务发展。虽然对真正人性化人工智能仍在继续探索当中,但大数据和机器学习(ML)的进步将帮助人工智能成为技术主流。

本文将介绍2018年的顶级人工智能和机器学习的发展趋势:

1. 医疗健康

咨询机构埃森哲公司表示,到2021年,美国人工智能医疗保健市场规模预计将达到66亿美元,其复合年增长率(CAGR)为40%。

医学成像和诊断公司正在推动人工智能在医疗健康技术方面的发展。例如,Arterys就是一种基于云计算放射科医师的人工智能助手,于2018年2月通过其Oncology AI套件获得美国食品和药物管理局(FDA)批准,用于分析肺和肝的肿瘤图像。

采用人工智能,个性化医疗保健和精准医疗也取得了长足的进步。今年8月,新加坡大学的研究人员使用人工智能来识别和优化骨髓瘤(一种血癌)的联合药物治疗。

2. 金融科技

强化学习十大原则

作者 | David Sliver
编译 | Xiaowen

原则#1:评估(Evaluation)推动进步

客观,量化的评估推动了进步:
●评估指标的选择决定了进度的方向
●可以说是项目过程中最重要的单一决策

排行榜驱动的(Leaderboard-driven)研究:
●确保评估指标对应最终目标
●避免主观评估(例如人工检查)

假设驱动的(Hypothesis-driven)研究:
●提出一个假设:
○“Double-Q学习优于Q-learning,因为它减少了向上偏差(upward bias)”
●在广泛的条件下验证假设
●比较相似的现有stat-of-the-art技术
●寻求理解而不是排行榜绩效

“”

原则#2:可伸缩性(Scalability)决定成功

●算法的可伸缩性是其相对于资源的性能梯度
○给定更多资源,性能如何提高?

最通俗的机器学习介绍

在本文中,我将描述数据分析是如何与机器学习相关的,还将揭开机器学习中的一些荒唐和错误的说法,并解释机器学习的过程和类型。

如果你不是一个人工智能专家,不要担心,我不会提及线性回归和k-均值聚类。

数据分析和机器学习

如果你认为大数据仅仅是关于SQL语句查询和海量的数据的话,那么别人也会理解你的,但是大数据真正的目的是通过对数据的推断,从数据中获取价值、从数据中发现有用的东西。例如,“如果我降低5%的价格,我将增加10%的销售量。”

数据分析是重要的技术,包括如下方面:

  •   描述性分析:确定所发生的事情。这通常涉及到描述发生了什么现象的报告。例如,用这个月的销售额与去年同期进行比较的结果。

  •   特征性分析:解释现象发生的原因,这通常涉及使用带有OLAP技术的控制台用以分析和研究数据,根据数据挖掘技术来找到数据之间的相关性。

  •   预测性分析:评估可能发生的事情的概率。这可能是预测性分析被用来根据你的工作性质、个人兴趣爱好,认为你是一个潜在的读者,以便能够链接到其他的人。

机器学习适合于预测性分析。

同步内容
--电子创新网--
粤ICP备12070055号