自然语言处理

深入机器学习之自然语言处理

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着深度学习在图像识别、语音识别领域的大放异彩,人们对深度学习在NLP的价值也寄予厚望。自然语言处理作为人工智能领域的认知智能,成为目前大家关注的焦点。

基本概念

  •  自然语言处理既是一门技术也是一门学科。
  •  自然语言指人类使用的语言,如汉语、英语等
  •  语言是思维的载体,是人类交流的工具
  •  语言的两种属性:文字和声音
  •  人类历史上以文字形式记载和流传的知识占80%以上。

自然语言处理的定义:
"自然语言处理又称为自然语言理解,就是利用计算机为工具对人类特有的书面形式和又头形式的自然语言的信息进行各种类型处理和加工的技术。” —— 冯志伟《自然语言的计算机处理》

研究的基本问题

1. 语音学

2018人工智能发展趋势解析!

虽然,现在还存在很多“伪人工智能”,不过,人工智能是未来的发展趋势。2018年我们需要关注AI的相关领域,因为变革正在慢慢来临,以下,让我们来看看人工智能五个不断变化的趋势,在不久的将来它们或将成为现实。

1、不依赖程序命令的学习模型改进

机器学习旨在使计算机能够从数据中学习并在不依赖于程序中命令的情况下进行改进。这种学习最终可以帮助计算机构建模型,例如用于预测天气的模型。这里,我们介绍了一些利用机器学习的常见应用程序:

a.财务应用
随着金融科技创业公司挑战现有企业,金融业正在迅速发展。这些现有企业中的许多人主要依靠传统的低效方法来提供标准化金融产品的咨询和业务。人工智能的进步正在通过引入自动化咨询改变这一领域。机器学习模型也取代了传统的预测分析方法来衡量市场趋势。

现在,机器学习也帮助金融公司预防金融欺诈。而且,还可以提高信用评级的准确性,并改善贷款机构的风险管理。

b.医疗应用
机器学习和大数据可以利用大量潜在医疗数据,通过基于机器学习模型构建的新应用程序可以帮助识别疾病并提供正确的疾病诊断。机器学习还可以帮助人类进行基因测序、临床试验、药物发现和研发以及流行病暴发的预测。

语言处理想突破,三座大山必须过

大数据文摘出品
编译:李佳、汤圆、钱天培

“我的飞机什么时候到?”

把这个问题抛给智能机器人助手。几乎可以肯定,机器立马就懵逼了。

“我”是谁?“飞机”是航班还是淘宝上订的模型玩具呢?“到”又是到哪呢?

如果是人类来回答这个问题,即使在情景不明确的情况下也能在快速澄清后给出回答,但对机器来说,除非依赖大量人为制定的规则,回答这样的问题难度堪比“哥德巴赫猜想”。

面对自然语言处理发展(NLP)存在的诸多难题,该领域的大牛、Salesforce的首席科学家Richard Socher在近日指出:NLP领域的发展要过三座大山。

困扰NLP领域的这三座大山究竟是什么?一起来听大佬说。

语言处理想突破,三座大山必须过

一直以来,语言都被认为是人类的独特能力,是智慧的表现。但最近,自然语言处理技术的发展似乎也将语言能力赋予给了机器。

帮你打电话订餐,给你讲故事,解决各种刁钻的冷知识问答…机器的语言能力已经无限接近人类水平。

19个AI热门应用领域,你知道多少?

1. 自然语言生成(Natural Language Generation)

自然语言生成是人工智能的分支,研究如何将数据转化为文本,用于客户服务、报告生成以及市场概述。

2. 语音识别(Speech Recognition)

Siri就是一个典型的例子。
目前,通过语音应答交互系统和移动应用程序对人类语言进行转录的系统已多达数十万。

3. 虚拟助理(Virtual Agents)

虚拟助理是一种能与人类进行交互的计算机代理或程序,其中以聊天机器人最为著名。虚拟助理多用于客户服务和支持,并可以作为智能家居的管理者。

4. 机器学习平台(Machine Learning Platforms)

机器学习是计算机科学和人工智能技术的分支,它能提升计算机的学习能力。

自然语言处理之卷积神经网络应用

卷积神经网络(CNN)最开始是用于计算机视觉中,然而现在也被广泛用于自然语言处理中,而且有着不亚于RNN(循环神经网络)的性能。

1、传统的自然语言处理模型

1)传统的词袋模型或者连续词袋模型(CBOW)都可以通过构建一个全连接的神经网络对句子进行情感标签的分类,但是这样存在一个问题,我们通过激活函数可以让某些结点激活(例如一个句子里”not”,”hate”这样的较强的特征词),但是由于在这样网络构建里,句子中词语的顺序被忽略,也许同样两个句子都出现了not和hate但是一个句子(I do not hate this movie)表示的是good的情感,另一个句子(I hate this movie and will not choose it)表示的是bad的情感。其实很重要的一点是在刚才上述模型中我们无法捕获像not hate这样由连续两个词所构成的关键特征的词的含义。

自然语言处理中的Attention Model:是什么及为什么

作者:张俊林

要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM模型)这个词。AM模型应该说是过去一年来NLP领域中的重要进展之一,在很多场景被证明有效。听起来AM很高大上,其实它的基本思想是相当直观简洁的。

Encoder-Decoder框架

本文只谈谈文本处理领域的AM模型,在图片处理或者(图片-图片标题)生成等任务中也有很多场景会应用AM模型,但是我们此处只谈文本领域的AM模型,其实图片领域AM的机制也是相同的。

要提文本处理领域的AM模型,就不得不先谈Encoder-Decoder框架,因为目前绝大多数文献中出现的AM模型是附着在Encoder-Decoder框架下的,当然,其实AM模型可以看作一种通用的思想,本身并不依赖于Encoder-Decoder模型,这点需要注意。

Encoder-Decoder框架可以看作是一种文本处理领域的研究模式,应用场景异常广泛,本身就值得非常细致地谈一下,但是因为本文的注意力焦点在AM模型,所以此处我们就只谈一些不得不谈的内容,详细的Encoder-Decoder模型以后考虑专文介绍。

2018年AI的五大发展趋势和带来了哪些益处

人类一直对于与自己相仿的机器人、以及人工智能(AI)的概念饶有兴致。好莱坞电影和科幻小说也一直启发着科学家们向着此方向不断努力。虽然AI的泡沫曾经破灭了多次,但是近年来,一些重大的发展与突破又一次将该领域带回到了公众面前。在 2017年,Gartner将通用AI放在了“技术成熟度曲线”的早期采用阶段。同时,它将深度学习和机器学习技术置于该曲线的顶峰。

我们需要理解的是:AI是几个相互关联的技术的总称术语。它包括:自然语言处理(Natural Language Processing,NLP)、机器学习、认知计算、神经网络、计算机视觉、机器人科学及其相关技术。在本文中,我们将解释所有这些技术的五大发展趋势,并了解它们所带来的益处。

1. 机器学习模式的大众化

机器学习的目的是使得计算机能够从数据中学习、在不依赖程序命令的情况下进行改进。这种学习最终可以帮助计算机建立模型,例如被用于预测天气的模型。在这里,我们来介绍一些利用机器学习的常用应用程序:

财务应用

自然语言处理在医学领域中的应用

近年来医疗数据挖掘发展迅速,然而目前医疗数据结构化处于起步阶段,更多的医疗数据仍然以自然语言文本形式出现。自然人的学习能力有限,因此学者们尝试通过自然语言处理辅助完成汇总医学领域知识的过程,将知识提炼出来,提取其中有用的诊疗信息,最终形成知识本体或者知识网络,从而为后续的各种文本挖掘任务提供标准和便利。

自然语言处理中CNN模型几种常见的Max Pooling操作

作者:张俊林

CNN是目前自然语言处理中和RNN并驾齐驱的两种最常见的深度学习模型。图1展示了在NLP任务中使用CNN模型的典型网络结构。一般而言,输入的字或者词用Word Embedding的方式表达,这样本来一维的文本信息输入就转换成了二维的输入结构,假设输入X包含m个字符,而每个字符的Word Embedding的长度为d,那么输入就是m*d的二维向量。

自然语言处理中CNN模型几种常见的Max Pooling操作
图1 自然语言处理中CNN模型典型网络结构

自然语言处理中的自注意力机制(Self-attention Mechanism)

近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,之前我对早期注意力机制进行过一些学习总结(可见 http://www.cnblogs.com/robert-dlut/p/5952032.html )。随着注意力机制的深入研究,各式各样的attention被研究者们提出。在2017年6月google机器翻译团队在arXiv上放出的《Attention is all you need》论文受到了大家广泛关注,自注意力(self-attention)机制开始成为神经网络attention的研究热点,在各个任务上也取得了不错的效果。本人就这篇论文中的self-attention以及一些相关工作进行了学习总结(其中也参考借鉴了张俊林博士的博客"深度学习中的注意力机制(2017版)"和苏剑林的"《Attention is All You Need》浅读(简介+代码)"),和大家一起分享。

1 背景知识

同步内容
--电子创新网--
粤ICP备12070055号