自然语言处理

神经符号系统:让机器善解人意

深度学习和符号智能的结合将是下一代自然语言理解的新范式,也是解决自然语言理解这个困难任务的唯一路径。

1. 通往语言理解之路

什么是理解

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

那么究竟什么是自然语言理解呢?我们可以认为,理解是从自然语言到语义的映射,但是这个定义只是把问题转移到了「语义」的定义上,而关于语义,一直缺乏在形式和功能上都普遍适用的定义。事实上,语义往往需要被放在特定领域和特定语境下去考量,比如一句「你开心就好」,可以在不同的场景下传达鄙视和祝愿等多种意思。关于理解或者语义,我们不得不采取了下面两种耍赖式的定义来刻画它们的不同侧面:

中文NLP用什么?中文自然语言处理的完整机器处理流程

作者:宿永杰
宿永杰现就职于某知名互联网公司担任数据挖掘工程师,PC 端全栈开发工程师,擅长 Java 大数据开发、Python、SQL 数据分析挖掘等,参与过客户画像、客户识别以及自然语言处理等项目的开发,目前致力于中文自然语言处理的研究。

为什么会有分词

我们知道自然语言处理中词为最小的处理单元,当你的语料为句子、短文本、篇章时,我们要做的第一步就是分词。

由于英语的基本组成单位就是词,分词是比较容易的。其句子基本上就是由标点符号、空格和词构成,那么只要根据空格和标点符号将词语分割即可。

中文和英文就有很大不同了。虽然基本组成单位也是词,但是中文文本是由连续的字序列构成,词与词之间是没有天然的分隔符,所以中文分词相对来说困难很多。

首当其冲的就是歧义问题,不同的分割方式会导致不同的意思。中文分词目前来说基本上分为2种:
1. 基于词典来进行分词的。优点是简单有效,缺点是无法很好的解决词的歧义问题,尤其在应对网络新的流行词汇时,表现很差

深入机器学习之自然语言处理

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着深度学习在图像识别、语音识别领域的大放异彩,人们对深度学习在NLP的价值也寄予厚望。自然语言处理作为人工智能领域的认知智能,成为目前大家关注的焦点。

基本概念

  •  自然语言处理既是一门技术也是一门学科。
  •  自然语言指人类使用的语言,如汉语、英语等
  •  语言是思维的载体,是人类交流的工具
  •  语言的两种属性:文字和声音
  •  人类历史上以文字形式记载和流传的知识占80%以上。

自然语言处理的定义:
"自然语言处理又称为自然语言理解,就是利用计算机为工具对人类特有的书面形式和又头形式的自然语言的信息进行各种类型处理和加工的技术。” —— 冯志伟《自然语言的计算机处理》

研究的基本问题

1. 语音学

2018人工智能发展趋势解析!

虽然,现在还存在很多“伪人工智能”,不过,人工智能是未来的发展趋势。2018年我们需要关注AI的相关领域,因为变革正在慢慢来临,以下,让我们来看看人工智能五个不断变化的趋势,在不久的将来它们或将成为现实。

1、不依赖程序命令的学习模型改进

机器学习旨在使计算机能够从数据中学习并在不依赖于程序中命令的情况下进行改进。这种学习最终可以帮助计算机构建模型,例如用于预测天气的模型。这里,我们介绍了一些利用机器学习的常见应用程序:

a.财务应用
随着金融科技创业公司挑战现有企业,金融业正在迅速发展。这些现有企业中的许多人主要依靠传统的低效方法来提供标准化金融产品的咨询和业务。人工智能的进步正在通过引入自动化咨询改变这一领域。机器学习模型也取代了传统的预测分析方法来衡量市场趋势。

现在,机器学习也帮助金融公司预防金融欺诈。而且,还可以提高信用评级的准确性,并改善贷款机构的风险管理。

b.医疗应用
机器学习和大数据可以利用大量潜在医疗数据,通过基于机器学习模型构建的新应用程序可以帮助识别疾病并提供正确的疾病诊断。机器学习还可以帮助人类进行基因测序、临床试验、药物发现和研发以及流行病暴发的预测。

语言处理想突破,三座大山必须过

大数据文摘出品
编译:李佳、汤圆、钱天培

“我的飞机什么时候到?”

把这个问题抛给智能机器人助手。几乎可以肯定,机器立马就懵逼了。

“我”是谁?“飞机”是航班还是淘宝上订的模型玩具呢?“到”又是到哪呢?

如果是人类来回答这个问题,即使在情景不明确的情况下也能在快速澄清后给出回答,但对机器来说,除非依赖大量人为制定的规则,回答这样的问题难度堪比“哥德巴赫猜想”。

面对自然语言处理发展(NLP)存在的诸多难题,该领域的大牛、Salesforce的首席科学家Richard Socher在近日指出:NLP领域的发展要过三座大山。

困扰NLP领域的这三座大山究竟是什么?一起来听大佬说。

语言处理想突破,三座大山必须过

一直以来,语言都被认为是人类的独特能力,是智慧的表现。但最近,自然语言处理技术的发展似乎也将语言能力赋予给了机器。

帮你打电话订餐,给你讲故事,解决各种刁钻的冷知识问答…机器的语言能力已经无限接近人类水平。

19个AI热门应用领域,你知道多少?

1. 自然语言生成(Natural Language Generation)

自然语言生成是人工智能的分支,研究如何将数据转化为文本,用于客户服务、报告生成以及市场概述。

2. 语音识别(Speech Recognition)

Siri就是一个典型的例子。
目前,通过语音应答交互系统和移动应用程序对人类语言进行转录的系统已多达数十万。

3. 虚拟助理(Virtual Agents)

虚拟助理是一种能与人类进行交互的计算机代理或程序,其中以聊天机器人最为著名。虚拟助理多用于客户服务和支持,并可以作为智能家居的管理者。

4. 机器学习平台(Machine Learning Platforms)

机器学习是计算机科学和人工智能技术的分支,它能提升计算机的学习能力。

自然语言处理之卷积神经网络应用

卷积神经网络(CNN)最开始是用于计算机视觉中,然而现在也被广泛用于自然语言处理中,而且有着不亚于RNN(循环神经网络)的性能。

1、传统的自然语言处理模型

1)传统的词袋模型或者连续词袋模型(CBOW)都可以通过构建一个全连接的神经网络对句子进行情感标签的分类,但是这样存在一个问题,我们通过激活函数可以让某些结点激活(例如一个句子里”not”,”hate”这样的较强的特征词),但是由于在这样网络构建里,句子中词语的顺序被忽略,也许同样两个句子都出现了not和hate但是一个句子(I do not hate this movie)表示的是good的情感,另一个句子(I hate this movie and will not choose it)表示的是bad的情感。其实很重要的一点是在刚才上述模型中我们无法捕获像not hate这样由连续两个词所构成的关键特征的词的含义。

自然语言处理中的Attention Model:是什么及为什么

作者:张俊林

要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM模型)这个词。AM模型应该说是过去一年来NLP领域中的重要进展之一,在很多场景被证明有效。听起来AM很高大上,其实它的基本思想是相当直观简洁的。

Encoder-Decoder框架

本文只谈谈文本处理领域的AM模型,在图片处理或者(图片-图片标题)生成等任务中也有很多场景会应用AM模型,但是我们此处只谈文本领域的AM模型,其实图片领域AM的机制也是相同的。

要提文本处理领域的AM模型,就不得不先谈Encoder-Decoder框架,因为目前绝大多数文献中出现的AM模型是附着在Encoder-Decoder框架下的,当然,其实AM模型可以看作一种通用的思想,本身并不依赖于Encoder-Decoder模型,这点需要注意。

Encoder-Decoder框架可以看作是一种文本处理领域的研究模式,应用场景异常广泛,本身就值得非常细致地谈一下,但是因为本文的注意力焦点在AM模型,所以此处我们就只谈一些不得不谈的内容,详细的Encoder-Decoder模型以后考虑专文介绍。

2018年AI的五大发展趋势和带来了哪些益处

人类一直对于与自己相仿的机器人、以及人工智能(AI)的概念饶有兴致。好莱坞电影和科幻小说也一直启发着科学家们向着此方向不断努力。虽然AI的泡沫曾经破灭了多次,但是近年来,一些重大的发展与突破又一次将该领域带回到了公众面前。在 2017年,Gartner将通用AI放在了“技术成熟度曲线”的早期采用阶段。同时,它将深度学习和机器学习技术置于该曲线的顶峰。

我们需要理解的是:AI是几个相互关联的技术的总称术语。它包括:自然语言处理(Natural Language Processing,NLP)、机器学习、认知计算、神经网络、计算机视觉、机器人科学及其相关技术。在本文中,我们将解释所有这些技术的五大发展趋势,并了解它们所带来的益处。

1. 机器学习模式的大众化

机器学习的目的是使得计算机能够从数据中学习、在不依赖程序命令的情况下进行改进。这种学习最终可以帮助计算机建立模型,例如被用于预测天气的模型。在这里,我们来介绍一些利用机器学习的常用应用程序:

财务应用

自然语言处理在医学领域中的应用

近年来医疗数据挖掘发展迅速,然而目前医疗数据结构化处于起步阶段,更多的医疗数据仍然以自然语言文本形式出现。自然人的学习能力有限,因此学者们尝试通过自然语言处理辅助完成汇总医学领域知识的过程,将知识提炼出来,提取其中有用的诊疗信息,最终形成知识本体或者知识网络,从而为后续的各种文本挖掘任务提供标准和便利。

同步内容
--电子创新网--
粤ICP备12070055号