机器学习

关于AI,你有必要了解的四大关键性概念

AI(人工智能)是研究开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。具体到应用来说,每一个人工智能解决方案都建立在四个基础之上,还没搞清楚?来看看我们的快速指南吧!

毋庸置疑,人工智能正在席卷整个世界,层出不穷的创新应用正实践于所有行业和领域。正如电影中描述的那样,人类使用人工智能机器人代替医生已经有几十年的时间,上至各行各业的专家,下到普通消费者,人工智能正在帮助我们更快的诊断和解决问题,比如进行精密的手术,比如用语音命令播放一首歌曲。

大众只注意到人工智能带来的益处,而对于专业人士来说,有四个概念必须要了解:分类方法、类别、机器学习和协同过滤。这四个支柱也代表了分析过程中的步骤。分类方法涉及创建特定问题域的度量(例如财务、网络)。类别涉及哪些数据与所需解决的问题最为相关。机器学习包括异常检测、聚类、深度学习和线性回归。协作过滤涉及在大型数据集上寻找模式。

分类方法

机器学习进入「时尚圈」,利用社交媒体揭秘服饰变化规律

上传到社交媒体上的数百万张照片是我们研究人类自身的丰富资源,但是它们还未被充分利用。机器学习为充分利用这些资源提供了条件。

“试想一下,如果未来的人类学家能够轻易地访问来自各个时代、不同地域的照片,并且拥有分析这些照片的强大工具,那时我们可以解决什么新问题?”这一疑问启发了纽约康奈尔大学的Kevin Matzen、 Kavita Bala 和Noah Snavely。

机器学习进入「时尚圈」,利用社交媒体揭秘服饰变化规律

他们的想法是:每天都有数百万张的照片上传到社交媒体上,这 为 了解世界各地的文化、社会、经济因素打开了一扇大门。强大的机器智能 可能会 挖掘出这些数据(照片)背后的价值,以便于我们深入了解 人类 文明 的 发展。

算法揭示了服装款式随时间如何变化

量子计算结合机器学习,即便是在初始阶段也极具前景

虽说爱因斯坦曾经拒绝量子力学,说上帝不会掷骰子,但有些投资人及公司都迫切希望,上帝就是靠掷骰子的。

最近,研究人员表示,机器学习可以受益于量子计算机的研究。加拿大多伦多已经有了相应的产业孵化器。而且,如果多伦多的产业孵化项目早在几年前启动,现在或许都有量子机器学习的公司了。

目前,机器学习和量子计算相结合的研究主要集中在使用初期的量子计算机来加速机器学习算法,或是使用传统的机器学习系统,来增加量子计算机的能量、持久性和效率。其最终计划是:使用基于小型化量子计算机的机器学习技术,更好的改进、理解和表达大型量子信息数据或复杂量子计算结果。

当然,这个终极目标要等到可以实现大规模量子信息存储,以及有成熟的量子计算机出现才行。谷歌曾表示,该公司计划在年底构建49量子比特的量子计算机,所以,一个可以受益于这种结合的,具有成百上千量子比特的量子计算机还要等很多年才能实现。

然而,来自西班牙光子科学研究所的Peter Wittek表示,研究者不用等到超级量子计算机面世再开展实验或理论的研究,量子机器学习即使是在其初级阶段也很有应用前景的。“建造通用的量子计算机确实是一个技术挑战”,Wittek说,“但是研究量子机器学习并不需要等所有条件都成熟。”

近日,arXiv 上公开的一篇 NIPS 投稿论文《Self-Normalizing Neural Networks》引起了圈内极大的关注,它提出了缩放指数型线性单元(SELU)而引进了自归一化属性,该单元主要使用一个函数 g 映射前后两层神经网络的均值和方差以达到归一化的效果。该论文的作者为 Sepp Hochreiter,也就是当年和 Jürgen Schmidhuber 一起发明 LSTM 的大牛,之前的 ELU 同样来自于他们组。有趣的是,这篇 NIPS 投稿论文虽然只有 9 页正文,却有着如同下图一样的 93 页证明附录。

引爆机器学习圈:「自归一化神经网络」提出新型激活函数SELU

在这篇文章中,机器之心对该论文进行了概要介绍。此外,Github 上已有人做出了论文中提出的 SELUs 与 ReLU 和 Leaky ReLU 的对比,我们也对此对比进行了介绍。

机器学习的四大降维算法

机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。

目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量表达的数据。之所以使用降维后的数据表示是因为在原始的高维空间中,包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误差,降低了准确率;而通过降维,我们希望减少冗余信息所造成的误差,提高识别(或其他应用)的精度。又或者希望通过降维算法来寻找数据内部的本质结构特征。

在很多算法中,降维算法成为了数据预处理的一部分,如PCA。事实上,有一些算法如果没有降维预处理,其实是很难得到很好的效果的。

一、主成分分析算法(PCA)

Principal Component Analysis(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。

让机器耳濡目染:MIT提出跨模态机器学习模型

转自:机器之心

不变性表示(invariant representation)是视觉、听觉和语言模型的核心,它们是数据的抽象结果。人们一直希望在视觉、有噪音的音频、有同义词的自然语言中获取观点和大量不变性表示。具有识别能力的不变性表示可以让机器从大量数据中学习特征,从而获得近似于人类的识别效果。但在机器学习领域,目前这一方面的研究进展有限。

对此,麻省理工学院(MIT)的 Yusuf Aytar 等人最近在一项研究中提出了全新的方法:研究人员通过多种关联信息的输入让机器学习了跨模态数据的通用表达方式。在文字语句「她跳入了泳池」中,同样的概念不仅出现在视觉上,也出现在了听觉上,如泳池的图像和水花飞溅的声音。如果这些跨模态的表示存在关联,那么它们的共同表示就具有鲁棒性。上文中的句子、泳池的图像和水声应当具有相同的内在表示。

论文:See, Hear, and Read: Deep Aligned Representations

链接:https://arxiv.org/abs/1706.00932

谈谈机器学习中的维度灾难

一、介绍

本篇文章,我们将讨论所谓的“维度灾难”,并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概念进行直观的解释,并通过一个由于维度灾难导致的过拟合的例子来讲解。

考虑这样一个例子,我们有一些图片,每张图片描绘的是小猫或者小狗。我们试图构建一个分类器来自动识别图片中是猫还是狗。要做到这一点,我们首先需要考虑猫、狗的量化特征,这样分类器算法才能利用这些特征对图片进行分类。例如我们可以通过毛皮颜色特征对猫狗进行识别,即通过图片的红色程度、绿色程度、蓝色程度不同,设计一个简单的线性分类器:

If 0.5*red+0.3*green+0.2*blue>0.6:
return cat;
else:
return dog;

红、绿、蓝三种颜色我们称之为特征Features,但仅仅利用这三个特征,还不能得到一个完美的分类器。因此,我们可以增加更多的特征来描述图片。例如计算图片X和Y方向的平均边缘或者梯度密度。现在总共有5个特征来构建我们的分类器了。

机器学习如何训练最终模型

对于刚刚接触、或跨界转行至机器学习的朋友来说,“如何训练最终模型”可谓是一个经典话题。对此,Jason Brownlee博士专门撰文解答这个疑问(原文链接),开数科技在此对文章进行了中文编译,希望能够为正在学习中的朋友们带去一些帮助。

原文作者:Dr. Jason Brownlee
中文编译:R.
特邀校审:Dr. Xu.Tang

How to Train a Final Machine Learning Model
机器学习如何训练最终模型

The machine learning model that we use to make predictions on new data is called the final model.
机器学习过程中,我们用来对新数据进行预测的模型被称为最终模型。

为什么机器学习需要一个激励函数

作者:云时之间

一起来聊一聊现代神经网络中必不可少的一个组成部分激励函数以及我们在机器学习中为什么少不了激励函数。

那首先第一个问题,什么是激励函数呢?首先用简单的语句进行概括,就好比我们的现实总是残酷的,而我们周围的生活也是时刻发生这变化的,那其实所谓的激励函数就是来去解决我们在机器学习中无法用线性方程去解决的问题,那么这个时候你可能会想,什么是线性方程呢?

当我们提到线性方程的时候,我们会不得不想到非线性方程,在这个时候我们可以假设,女生长得越漂亮,越多的男生越喜欢,其实这个问题就可以当做一个线性问题,但是如果我们假设这个问题发生在校园里,现在校园里的男生是有限的,现在就算女生再漂亮,女生再漂亮,也不会有无穷多的男生去喜欢他,所以,在这个时候,这个问题就变成了一个非线性问题。再说,女生也不可能是无穷漂亮的吧。

一文了解人工智能的基本常识

德勤DUP近期发布了一份报告,对人工智能的历史、核心技术和应用情况进行了详细说明,尤其是其中重要的认知技术。这份报告将有助于我们对人工智能和认知技术进行深入了解,也有助于各行业的公司考量人工智能应用的实际价值。

国内对于人工智能的讨论大多是不成体系的碎片式,很难从中深入了解人工智能的发展脉络和技术体系,也很难有实际借鉴意义。德勤DUP近期发布了一份报告,对人工智能的历史、核心技术和应用情况进行了详细说明,尤其是其中重要的认知技术。这份报告将有助于我们对人工智能和认知技术进行深入了解,也有助于各行业的公司考量人工智能应用的实际价值。

一、概述

近几年各界对人工智能的兴趣激增,自2011年以来,开发与人工智能相关的产品和技术并使之商业化的公司已获得超过总计20亿美元的风险投资,而科技巨头更是投资数十亿美元收购那些人工智能初创公司。相关报道铺天盖地,而巨额投资、计算机导致失业等问题也开始浮现,计算机比人更加聪明并有可能威胁到人类生存这类论断更是被媒体四处引用并引发广泛关注。

IBM承诺拨出10亿美元来使他们的认知计算平台Watson商业化。

谷歌在最近几年里的投资主要集中在人工智能领域,比如收购了8个机器人公司和1个机器学习公司。

同步内容
--电子创新网--
粤ICP备12070055号