自然语言处理

迁移学习在自然语言处理领域的应用

迁移学习

迁移学习近年来在图形领域中得到了快速的发展,主要在于某些特定的领域不具备足够的数据,不能让深度模型学习的很好,需要从其它领域训练好的模型迁移过来,再使用该模型进行微调,使得该模型能很好地拟合少量数据的同时又具备较好的泛化能力(不过拟合)。

在迁移学习任务中,需要事先定义一组源数据集合,使用该集合训练得到预训练好的模型,该模型具备了源数据集合中的一些知识,在目标数据集合上微调该预训练的模型,使得模型能够很好地完成目标数据集合定义的任务,即完成了迁移学习。

由于深度学习模型结构复杂,在NLP领域中迁移学习不够成熟,不知道如何进行迁移、迁移模型的哪个结构部分、源数据集合与目标数据集合之间需要满足怎样的关系。本文以CNN文本分类任务为例进行描述,总结一下迁移学习在NLP领域文本分类任务中的一些经验。

CNN文本分类模型框架

快速了解深度学习的工作原理

人工智能(AI)和机器学习(ML)是目前最热门的话题。

术语“AI”每天无处不在。经常听到有抱负的开发者说他们想要学习人工智能。还听到高管们说他们希望在他们的服务中实施AI。但很多时候,很多人都不明白AI是什么。

阅读完本文后,您将了解AI和ML的基础知识。更重要的是,您将了解最受欢迎的ML类型深度学习是如何工作的。

背景

了解深度学习如何运作的第一步是掌握重要术语之间的差异。

人工智能与机器学习

人工智能是人类智能在计算机中的复制。

当AI研究首次开始时,研究人员正试图复制人类智能以执行特定任务 - 比如玩游戏。

他们介绍了计算机需要尊重的大量规则。计算机有一个特定的可能操作列表,并根据这些规则做出决策。

机器学习是指机器使用大型数据集而不是硬编码规则进行学习的能力。

ML允许计算机自己学习。这种类型的学习利用了现代计算机的处理能力,可以轻松处理大型数据集。

监督学习与无监督学习

监督学习涉及使用具有输入和预期输出的标记数据集。

【译】自然语言处理中的深度学习:优势与挑战

本文翻译自李航老师发表在 National Science Review 上关于自然语言处理中的深度学习文章,该文讨论了目前存在的优势与挑战。

自然语言处理中的深度学习:优势与挑战

1. 引言

深度学习指学习和使用 “深度” 人工神经网络的机器学习技术,比如深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)。近来,深度学习成功地应用在 NLP 中并取得了很多重要的进展。这篇文章总结了深度学习在 NLP 中取得的进展,最后讨论它的优势和面临的挑战。

自然语言处理中的深度学习:优势与挑战

干货丨一文看懂什么是“自然语言处理”

作者:武汉飔拓科技

一、什么是自然语言处理

简单地说,自然语言处理(NaturalLanguage Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。

从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

自然语言处理中的语言模型预训练方法

最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。就此,我将最近看的一些相关论文进行总结,选取了几个代表性模型(包括ELMo [1],OpenAI GPT [2]和BERT [3])和大家一起学习分享。

1. 引言

在介绍论文之前,我将先简单介绍一些相关背景知识。首先是语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布。具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。在实践中,如果文本的长度较长,P(wi | w1, w2, . . . , wi−1)的估算会非常困难。因此,研究者们提出使用一个简化模型:n元模型(n-gram model)。在 n 元模型中估算条件概率时,只需要对当前词的前n个词进行计算。在n元模型中,传统的方法一般采用频率计数的比例来估算n元条件概率。当n较大时,机会存在数据稀疏问题,导致估算结果不准确。因此,一般在百万词级别的语料中,一般也就用到三元模型。

15年来,自然语言处理发展史上的8大里程碑

自然语言是人类独有的智慧结晶。自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,旨在研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。用自然语言与计算机进行通信,有着十分重要的实际应用意义,也有着革命性的理论意义。

由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以自然语言处理,也被视为解决人工智能完备(AI-complete)的核心问题之一。对自然语言处理的研究也是充满魅力和挑战的。

本文是来自自然语言处理领域从业人员、知名博主 Sebatian Ruder的一篇文章,主要从神经网络技术方法的角度,讨论自然语言处理领域近 15 年来的重大进展,并总结出与当下息息相关的 8 大里程碑事件。文章内容难免会省略了一些其它重要的相关工作,同时,这份总结偏向于神经网络相关技术,这并不意味着在这段时间内其它技术领域就没有重要的进展。值得注意的是,文中提及的很多神经网络模型都是建立在同一时期非神经网络技术的里程碑之上的,在文章的最后,我们强调了这些打下坚实基础的重要成果。

2001年——神经语言模型(Neurallanguage models)

神经符号系统:让机器善解人意

深度学习和符号智能的结合将是下一代自然语言理解的新范式,也是解决自然语言理解这个困难任务的唯一路径。

1. 通往语言理解之路

什么是理解

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

那么究竟什么是自然语言理解呢?我们可以认为,理解是从自然语言到语义的映射,但是这个定义只是把问题转移到了「语义」的定义上,而关于语义,一直缺乏在形式和功能上都普遍适用的定义。事实上,语义往往需要被放在特定领域和特定语境下去考量,比如一句「你开心就好」,可以在不同的场景下传达鄙视和祝愿等多种意思。关于理解或者语义,我们不得不采取了下面两种耍赖式的定义来刻画它们的不同侧面:

中文NLP用什么?中文自然语言处理的完整机器处理流程

作者:宿永杰
宿永杰现就职于某知名互联网公司担任数据挖掘工程师,PC 端全栈开发工程师,擅长 Java 大数据开发、Python、SQL 数据分析挖掘等,参与过客户画像、客户识别以及自然语言处理等项目的开发,目前致力于中文自然语言处理的研究。

为什么会有分词

我们知道自然语言处理中词为最小的处理单元,当你的语料为句子、短文本、篇章时,我们要做的第一步就是分词。

由于英语的基本组成单位就是词,分词是比较容易的。其句子基本上就是由标点符号、空格和词构成,那么只要根据空格和标点符号将词语分割即可。

中文和英文就有很大不同了。虽然基本组成单位也是词,但是中文文本是由连续的字序列构成,词与词之间是没有天然的分隔符,所以中文分词相对来说困难很多。

首当其冲的就是歧义问题,不同的分割方式会导致不同的意思。中文分词目前来说基本上分为2种:
1. 基于词典来进行分词的。优点是简单有效,缺点是无法很好的解决词的歧义问题,尤其在应对网络新的流行词汇时,表现很差

深入机器学习之自然语言处理

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着深度学习在图像识别、语音识别领域的大放异彩,人们对深度学习在NLP的价值也寄予厚望。自然语言处理作为人工智能领域的认知智能,成为目前大家关注的焦点。

基本概念

  •  自然语言处理既是一门技术也是一门学科。
  •  自然语言指人类使用的语言,如汉语、英语等
  •  语言是思维的载体,是人类交流的工具
  •  语言的两种属性:文字和声音
  •  人类历史上以文字形式记载和流传的知识占80%以上。

自然语言处理的定义:
"自然语言处理又称为自然语言理解,就是利用计算机为工具对人类特有的书面形式和又头形式的自然语言的信息进行各种类型处理和加工的技术。” —— 冯志伟《自然语言的计算机处理》

研究的基本问题

1. 语音学

2018人工智能发展趋势解析!

虽然,现在还存在很多“伪人工智能”,不过,人工智能是未来的发展趋势。2018年我们需要关注AI的相关领域,因为变革正在慢慢来临,以下,让我们来看看人工智能五个不断变化的趋势,在不久的将来它们或将成为现实。

1、不依赖程序命令的学习模型改进

机器学习旨在使计算机能够从数据中学习并在不依赖于程序中命令的情况下进行改进。这种学习最终可以帮助计算机构建模型,例如用于预测天气的模型。这里,我们介绍了一些利用机器学习的常见应用程序:

a.财务应用
随着金融科技创业公司挑战现有企业,金融业正在迅速发展。这些现有企业中的许多人主要依靠传统的低效方法来提供标准化金融产品的咨询和业务。人工智能的进步正在通过引入自动化咨询改变这一领域。机器学习模型也取代了传统的预测分析方法来衡量市场趋势。

现在,机器学习也帮助金融公司预防金融欺诈。而且,还可以提高信用评级的准确性,并改善贷款机构的风险管理。

b.医疗应用
机器学习和大数据可以利用大量潜在医疗数据,通过基于机器学习模型构建的新应用程序可以帮助识别疾病并提供正确的疾病诊断。机器学习还可以帮助人类进行基因测序、临床试验、药物发现和研发以及流行病暴发的预测。

同步内容
--电子创新网--
粤ICP备12070055号