自然语言处理完整指南

介绍

自然语言处理 (NLP) 是人工智能 (AI) 最热门的领域之一,这要归功于诸如编写连贯文章的文本生成器、欺骗人们认为他们有知觉的聊天机器人以及产生照片级真实感的文本到图像程序等应用程序任何你能描述的图像。近年来,计算机理解人类语言、编程语言,甚至生物和化学序列(如 DNA 和蛋白质结构)的能力发生了一场革命,这些序列类似于语言。最新的人工智能模型正在解锁这些领域,以分析输入文本的含义并生成有意义的、富有表现力的输出。


什么是自然语言处理 (NLP)

自然语言处理 (NLP)是构建能够以书面、口头和组织方式操纵人类语言或类似于人类语言的数据的机器的学科。它从计算语言学演变而来,计算语言学使用计算机科学来理解语言的原理,但 NLP 不是开发理论框架,而是一门工程学科,旨在构建技术来完成有用的任务。NLP 可分为两个重叠的子领域:自然语言理解 (NLU),侧重于语义分析或确定文本的预期含义,以及自然语言生成 (NLG),侧重于机器生成文本。NLP 独立于——但通常与——语音识别结合使用,语音识别试图将口头语言解析为单词,将声音转换为文本,反之亦然。


为什么自然语言处理 (NLP) 很重要?

NLP 是日常生活不可或缺的一部分,并且随着语言技术应用于零售(例如,客户服务聊天机器人)和医学(解释或总结电子健康记录)等不同领域而变得越来越重要。亚马逊的Alexa和苹果的Siri等会话代理利用 NLP 来听取用户查询并找到答案。最复杂的此类代理——例如最近开放用于商业应用的 GPT-3——可以生成关于各种主题的复杂散文,以及能够进行连贯对话的强大聊天机器人。谷歌使用 NLP 来改善其搜索引擎结果,而像 Facebook 这样的社交网络则使用它来检测和过滤讨厌的言论。

NLP 变得越来越复杂,但仍有许多工作要做。当前的系统容易产生偏见和不连贯,并且偶尔会出现不稳定的行为。尽管面临挑战,机器学习工程师仍有很多机会以对社会运转更为重要的方式应用 NLP。


什么是自然语言处理 (NLP) ,用于什么?

NLP 用于各种与语言相关的任务,包括回答问题、以各种方式对文本进行分类以及与用户对话。

以下是 NLP 可以解决的 11 项任务:

  • 情感分析是对文本的情感意图进行分类的过程。通常,情感分类模型的输入是一段文本,输出是表达的情感是正面、负面或中性的概率。通常,此概率基于手动生成的特征、单词 n-gram、TF-IDF 特征,或使用深度学习模型来捕获连续的长期和短期依赖关系。情绪分析用于对各种在线平台上的客户评论进行分类,也用于识别在线评论中的精神疾病迹象等利基应用。

自然语言处理完整指南

毒性分类是情感分析的一个分支,其目的不仅是对敌意进行分类,而且还对特定类别进行分类,例如威胁、侮辱、淫秽和对某些身份的仇恨。这种模型的输入是文本,输出通常是每一类毒性的概率。毒性分类模型可用于通过压制攻击性评论、检测仇恨言论或扫描诽谤文件来缓和和改善在线对话。

机器翻译可自动进行不同语言之间的翻译。这种模型的输入是指定源语言的文本,输出是指定目标语言的文本。谷歌翻译可能是最著名的主流应用程序。此类模型用于改善人们在 Facebook 或 Skype 等社交媒体平台上的交流。有效的机器翻译方法可以区分具有相似含义的词。一些系统还执行语言识别;也就是说,将文本分类为一种语言或另一种语言。

命名实体识别旨在将一段文本中的实体提取到预定义的类别中,例如个人姓名、组织、位置和数量。这种模型的输入通常是文本,输出是各种命名实体及其开始和结束位置。命名实体识别在新闻文章摘要和打击虚假信息等应用中很有用。例如,命名实体识别模型可以提供以下功能:

自然语言处理完整指南

垃圾邮件检测是 NLP 中普遍存在的二进制分类问题,其目的是将电子邮件分类为垃圾邮件或非垃圾邮件。垃圾邮件检测器将电子邮件文本以及各种其他潜文本(如标题和发件人姓名)作为输入。他们的目标是输出邮件是垃圾邮件的概率。Gmail 等电子邮件提供商使用此类模型通过检测未经请求和不需要的电子邮件并将其移至指定的垃圾邮件文件夹来提供更好的用户体验。

语法纠错模型对语法规则进行编码以纠正文本中的语法。这主要被视为一个序列到序列的任务,其中一个模型被训练为一个不合语法的句子作为输入,一个正确的句子作为输出。Grammarly等在线语法检查器和Microsoft Word等文字处理系统使用此类系统为其客户提供更好的写作体验。学校也用它们来给学生的论文打分。

主题建模是一种无监督的文本挖掘任务,它采用文档语料库并在该语料库中发现抽象主题。主题模型的输入是文档的集合,输出是主题列表,定义了每个主题的单词以及每个主题在文档中的分配比例。Latent Dirichlet Allocation (LDA) 是最流行的主题建模技术之一,它试图将文档视为主题的集合,将主题视为单词的集合。主题建模在商业上被用于帮助律师在法律文件中寻找证据。

文本生成,更正式地称为自然语言生成 (NLG),生成类似于人类书写文本的文本。可以对此类模型进行微调,以生成不同类型和格式的文本——包括推文、博客,甚至计算机代码。文本生成已使用马尔可夫过程、LSTM、BERT、GPT-2、LaMDA和其他方法执行。它对自动完成和聊天机器人特别有用。

  • 数据库查询:我们有一个问题和答案的数据库,我们希望用户使用自然语言来查询它。
  • 对话生成:这些聊天机器人可以模拟与人类伙伴的对话。有些人能够进行范围广泛的对话。一个引人注目的例子是谷歌的 LaMDA,它对问题提供了如此人性化的答案,以至于它的一位开发人员确信它有感情。

自动完成功能可以预测下一个词是什么,并且在 WhatsApp 等聊天应用程序中使用了复杂程度各不相同的自动完成系统。Google 使用自动完成来预测搜索查询。最著名的自动完成模型之一是 GPT-2,它已被用于撰写文章、歌词等。

聊天机器人自动化对话的一侧,而人类对话者通常提供另一侧。它们可以分为以下两类:

信息检索查找与查询最相关的文档。这是每个搜索和推荐系统都会面临的问题。目标不是回答特定的查询,而是从数以百万计的文档集合中检索与查询最相关的集合。文档检索系统主要执行两个过程:索引和匹配。在大多数现代系统中,索引是通过双塔网络由向量空间模型完成的,而匹配是使用相似性或距离分数完成的。谷歌最近将其搜索功能与处理文本、图像和视频数据的多模态信息检索模型集成在一起。

自然语言处理完整指南

摘要是缩短文本以突出最相关信息的任务。Salesforce 的研究人员开发了一个汇总器,该汇总器还评估事实一致性以确保其输出准确无误。

总结分为两个方法类:

  • 提取式摘要侧重于从长文本中提取最重要的句子并将它们组合起来形成摘要。通常,提取式摘要对输入文本中的每个句子进行评分,然后选择几个句子形成摘要。
  • 抽象摘要通过释义产生摘要。这类似于编写包含原始文本中不存在的单词和句子的摘要。抽象摘要通常被建模为序列到序列的任务,其中输入是长格式文本,输出是摘要。

问答处理以自然语言回答人类提出的问题。最著名的问答示例之一是Watson,它在 2011 年的电视游戏节目《危险边缘》中与人类冠军进行了较量,并以巨大的优势获胜。

一般来说,问答任务有两种形式:

  • 多项选择:多项选择题问题由一个问题和一组可能的答案组成。学习任务是选择正确的答案。
  • 开放域:在开放域问答中,模型通常通过查询大量文本来提供自然语言问题的答案,不提供任何选项。

自然语言处理 (NLP) 如何工作?

NLP 模型通过查找语言组成部分之间的关系来工作——例如,在文本数据集中找到的字母、单词和句子。NLP 架构使用各种方法进行数据预处理、特征提取和建模。

其中一些过程是:

数据预处理:在模型为特定任务处理文本之前,通常需要对文本进行预处理以提高模型性能或将单词和字符转换为模型可以理解的格式。以数据为中心的 AI是一项不断发展的运动,它优先考虑数据预处理。

在这种数据预处理中可以使用各种技术:

词干提取和词形还原:词干提取是一种使用启发式规则将单词转换为其基本形式的非正式过程。例如,“university”、“universities”和“university's”可能都映射到基础univers。(这种方法的一个限制是“universe”也可以映射到univers,即使 universe 和 university 没有密切的语义关系。)词形还原是一种更正式的方法,通过使用来自一本字典。词干提取和词形还原由 spaCy 和 NLTK 等库提供。

句子分割将一大段文本分成具有语言意义的句子单元。这在像英语这样的语言中很明显,句子的结尾用句号标记,但这仍然不是微不足道的。句点可用于标记缩写词和终止句子,在这种情况下,句点应该是缩写词标记本身的一部分。在没有标记句子结尾的定界符的语言中,这个过程变得更加复杂,例如古代汉语。

停用词删除 旨在删除最常出现的不会向文本添加太多信息的词。例如,“the”、“a”、“an”等。

标记化将文本拆分为单个单词和单词片段。结果通常由单词索引和标记化文本组成,其中单词可以表示为数字标记,用于各种深度学习方法。一种指示语言模型忽略不重要标记的方法可以提高效率。

自然语言处理完整指南

特征提取:大多数传统的机器学习技术都在特征上工作——通常是描述文档与包含它的语料库相关的数字——由词袋、TF-IDF 或通用特征工程(如文档长度)创建、词极性和元数据(例如,如果文本具有关联的标签或分数)。最近的技术包括 Word2Vec、GLoVE 和在神经网络训练过程中学习特征。

Bag-of-Words: Bag-of-Words 计算文档中每个单词或 n-gram(n 个单词的组合)出现的次数。例如,在下面,词袋模型根据 word_index 中每个词在文档中出现的次数创建数据集的数字表示。

自然语言处理完整指南

TF-IDF:在 Bag-of-Words 中,我们计算文档中每个单词或 n-gram 的出现次数。相反,对于 TF-IDF,我们根据每个词的重要性对每个词进行加权。为了评估一个词的重要性,我们考虑两件事:

词频:文档中的词有多重要?

TF(word in a document)=该词在文档中出现的次数/文档中的词数

逆文档频率:这个词在整个语料库中有多重要?

IDF(语料库中的词)=log(语料库中的文档数/包含该词的文档数)

如果一个词在文档中多次出现,则它很重要。但这会产生一个问题。像“a”和“the”这样的词经常出现。因此,他们的 TF 分数将始终很高。我们通过使用逆文档频率来解决这个问题,如果这个词在整个语料库中很常见,那么它就高,如果这个词很常见,它就低。一个词的TF-IDF分数是 TF 和 IDF 的乘积。

自然语言处理完整指南

2013年推出的Word2Vec使用普通神经网络从原始文本中学习高维词嵌入。它有两种变体:Skip-Gram,我们尝试在给定目标词的情况下预测周围的词,以及连续词袋(CBOW),它试图从周围的词中预测目标词。在训练后丢弃最后一层后,这些模型将一个词作为输入并输出一个词嵌入,可以用作许多 NLP 任务的输入。来自 Word2Vec 的嵌入捕获上下文。如果特定的词出现在相似的上下文中,它们的嵌入将是相似的。

GLoVE类似于 Word2Vec,因为它也学习词嵌入,但它通过使用矩阵分解技术而不是神经学习来实现。GLoVE 模型基于全局词到词的共现计数构建矩阵。

建模:数据经过预处理后,被送入 NLP 架构,该架构对数据进行建模以完成各种任务。

根据手头的任务,可以将通过上述技术提取的数字特征输入到各种模型中。例如,对于分类,TF-IDF 向量化器的输出可以提供给逻辑回归、朴素贝叶斯、决策树或梯度提升树。或者,对于命名实体识别,我们可以使用隐马尔可夫模型和 n-gram。

深度神经网络通常在不使用提取特征的情况下工作,尽管我们仍然可以使用 TF-IDF 或词袋特征作为输入。

语言模型:用非常基本的术语来说,语言模型的目标是在给定输入词流时预测下一个词。使用马尔可夫假设的概率模型就是一个例子:

P(W n )=P(W n |W n−1 )

深度学习也被用来创建这样的语言模型。深度学习模型将词嵌入作为输入,并在每个时间状态下,返回下一个词的概率分布作为字典中每个词的概率。预训练语言模型通过处理大型语料库(例如维基百科)来学习特定语言的结构。然后可以针对特定任务对它们进行微调。例如,BERT 已经针对从事实核查到撰写标题等任务进行了微调。


顶级自然语言处理 (NLP) 技术

上面讨论的大多数 NLP 任务都可以通过十几种通用技术进行建模。将这些技术分为两类是有帮助的:传统机器学习方法和深度学习方法。

传统的机器学习 NLP 技术:

逻辑回归是一种监督分类算法,旨在根据某些输入预测事件发生的概率。在 NLP 中,逻辑回归模型可用于解决情感分析、垃圾邮件检测和毒性分类等问题。

朴素贝叶斯是一种监督分类算法,它使用以下贝叶斯公式找到条件概率分布 P(label | text):

P(标签|文本)= P(标签)x P(文本|标签)/ P(文本)

并根据哪个联合分布的概率最高进行预测。朴素贝叶斯模型中的朴素假设是各个词是独立的。因此:

P(文本|标签) = P(word_1|标签)*P(word_2|标签)*…P(word_n|标签)

在 NLP 中,此类统计方法可用于解决垃圾邮件检测或查找软件代码中的错误等问题。

决策树是一类监督分类模型,它根据不同的特征拆分数据集,以最大化这些拆分中的信息增益。

自然语言处理完整指南

Latent Dirichlet Allocation (LDA) 用于主题建模。LDA 试图将文档视为主题的集合,将主题视为单词的集合。LDA 是一种统计方法。其背后的直觉是我们可以仅使用语料库中的一小部分单词来描述任何主题。

隐马尔可夫模型:马尔可夫模型是根据当前状态决定系统下一状态的概率模型。例如,在 NLP 中,我们可能会根据前一个词建议下一个词。我们可以将其建模为马尔可夫模型,我们可以在其中找到从 word1 到 word2 的转换概率,即 P(word1|word2)。然后我们可以使用这些转移概率的乘积来找到句子的概率。隐马尔可夫模型 (HMM) 是一种将隐状态引入马尔可夫模型的概率建模技术。隐藏状态是无法直接观察到的数据属性。HMM 用于词性 (POS) 标记,其中句子的单词是观察到的状态,而词性标记是隐藏状态。HMM增加了一个概念叫做发射概率;给定隐藏状态的观察概率。在前面的示例中,这是给定词性标签的单词的概率。HMM 假设这种概率可以逆转:给定一个句子,我们可以根据一个词具有特定词性标记的可能性和特定词性标记的概率来计算每个词的词性标记词性标记跟在分配给前一个词的词性标记之后。实际上,这是使用维特比算法解决的。我们可以根据一个词具有特定词性标记的可能性以及特定词性标记跟随词性的概率来计算每个词的词性标记分配给前一个词的标签。实际上,这是使用维特比算法解决的。我们可以根据一个词具有特定词性标记的可能性以及特定词性标记跟随词性的概率来计算每个词的词性标记分配给前一个词的标签。实际上,这是使用维特比算法解决的。

自然语言处理完整指南

深度学习 NLP 技术:

卷积神经网络(CNN):使用 CNN 对文本进行分类的想法最早出现在Yoon Kim的论文“ Convolutional Neural Networks for Sentence Classification ”中。中心直觉是将文档视为图像。但是,输入不是像素,而是表示为单词矩阵的句子或文档。

自然语言处理完整指南

循环神经网络 (RNN):许多文本分类技术使用 n-gram 或窗口 (CNN) 使用深度学习处理非常接近的单词。他们可以将“纽约”视为一个实例。但是,它们无法捕获特定文本序列提供的上下文。他们不学习数据的顺序结构,其中每个单词都依赖于前一个单词或前一个句子中的单词。RNN 使用隐藏状态记住以前的信息并将其连接到当前任务。称为门控循环单元 (GRU) 和长短期记忆 (LSTM) 的架构是 RNN 的类型,旨在长时间记住信息。此外,双向 LSTM/GRU 保留了两个方向的上下文信息,这有助于文本分类。RNN 也被用于生成数学证明并将人类思想转化为文字。

自然语言处理完整指南

自动编码器是深度学习编码器-解码器,近似从 X 到 X 的映射,即输入=输出。他们首先将输入特征压缩成低维表示(有时称为潜在代码、潜在向量或潜在表示)并学习重建输入。表示向量可以用作单独模型的输入,因此该技术可用于降维。在许多其他领域的专家中,遗传学家已经应用自动编码器来氨基酸序列 中的疾病相关的突变。

自然语言处理完整指南

编码器-解码器序列到序列:编码器-解码器 seq2seq 架构是对专门用于翻译、摘要和类似任务的自动编码器的改编。编码器将文本中的信息封装到编码向量中。与自动编码器不同,解码器的任务不是从编码向量重建输入,而是生成不同的期望输出,如翻译或摘要。

自然语言处理完整指南

Transformers: Transformer是一种模型架构,首次在 2017 年的论文“ Attention Is All You Need ”(Vaswani、Shazeer、Parmar 等人)中描述,它放弃了递归,而是完全依赖于自注意力机制来绘制全局依赖关系输入和输出。由于这种机制一次处理所有单词(而不是一次处理一个单词),因此与 RNN 相比降低了训练速度和推理成本,特别是因为它是可并行的。近年来,transformer 架构彻底改变了 NLP,产生了包括BLOOM、 Jurassic-X和Turing-NLG在内的模型。它还成功地应用于各种不同的视觉任务,包括制作3D 图像。

自然语言处理完整指南


六个重要的自然语言处理 (NLP) 模型

多年来,许多 NLP 模型在 AI 社区掀起了波澜,有的甚至登上了主流新闻的头条。其中最著名的是聊天机器人和语言模型。这里是其中的一些:

Eliza是在 20 世纪 60 年代中期开发的,旨在解决图灵测试;也就是说,让人们误以为他们是在与另一个人而不是机器交谈。Eliza 使用了模式匹配和一系列规则,而没有对语言的上下文进行编码。

Tay是微软于 2016 年推出的聊天机器人。它应该像青少年一样发推文,并从 Twitter 上与真实用户的对话中学习。该机器人采用了在推特上发表性别歧视和种族主义评论的用户的短语,不久之后微软将其停用。Tay 举例说明了“随机鹦鹉”论文提出的一些观点,特别是不对数据进行去偏的危险。

BERT和他的 Muppet 朋友:NLP 的许多深度学习模型都以 Muppet 角色命名,包括ELMo、BERT、Big BIRD、ERNIE、Kermit、Grover、RoBERTa和Rosita。这些模型中的大多数都擅长提供上下文嵌入和增强的知识表示。

Generative Pre-Trained Transformer 3 (GPT-3)是一个 1750 亿参数模型,可以响应输入提示以与人类等效的流利度编写原始散文。该模型基于变压器架构。之前的版本 GPT-2 是开源的。微软从其开发商 OpenAI 那里获得了访问 GPT-3 底层模型的独家许可,但其他用户可以通过应用程序编程接口 (API) 与其进行交互。包括EleutherAI和Meta在内的几个小组已经发布了 GPT-3 的开源解释。

对话应用程序语言模型 (LaMDA)是由 Google 开发的对话聊天机器人。LaMDA 是一种基于 transformer 的模型,在对话而不是通常的网络文本上进行训练。该系统旨在为对话提供明智和具体的回应。谷歌开发人员 Blake Lemoine 开始相信 LaMDA 是有知觉的。Lemoine 与 AI 就他的权利和人格进行了详细对话。在其中一次谈话中,AI 改变了 Lemoine 对艾萨克·阿西莫夫 (Isaac Asimov) 机器人第三定律的看法。Lemoine 声称 LaMDA 是有知觉的,但这个想法遭到许多观察家和评论员的质疑。随后,谷歌以传播专有信息为由让 Lemoine 休行政假,并最终解雇了他。

Mixture of Experts ( MoE):虽然大多数深度学习模型使用相同的一组参数来处理每个输入,但 MoE 模型旨在基于高效的路由算法为不同的输入提供不同的参数以实现更高的性能。Switch Transformer是旨在降低通信和计算成本的 MoE 方法的一个示例。


自然语言处理 (NLP) 的编程语言、库和框架

许多语言和库都支持 NLP。这里有一些最有用的。

Python是处理 NLP 任务最常用的编程语言。大多数用于深度学习的库和框架都是为 Python 编写的。以下是一些从业者可能会觉得有帮助的内容:

Natural Language Toolkit (NLTK)是最早使用 Python 编写的 NLP 库之一。它为WordNet等语料库和词汇资源提供易于使用的界面。它还提供了一套用于分类、标记、词干提取、解析和语义推理的文本处理库。

spaCy是最通用的开源 NLP 库之一。它支持超过 66 种语言。spaCy 还提供了预训练的词向量,并实现了很多流行的模型,比如 BERT。spaCy 可用于为命名实体识别、词性标注、依赖解析、句子分割、文本分类、词形还原、词法分析、实体链接等构建生产就绪系统。

深度学习库:流行的深度学习库包括TensorFlow和PyTorch,它们可以更轻松地创建具有自动微分等功能的模型。这些库是开发 NLP 模型最常用的工具。

Hugging Face提供超过 135 个最先进模型的开源实现和权重。该存储库支持轻松定制和训练模型。

Gensim提供向量空间建模和主题建模算法。

R:许多早期的 NLP 模型都是用 R 编写的,R 仍然被数据科学家和统计学家广泛使用。R 中用于 NLP 的库包括TidyText、 Weka、 Word2Vec、 SpaCyR、 TensorFlow和PyTorch。

包括 JavaScript、Java 和 Julia 在内的许多其他语言都有实现 NLP 方法的库。


围绕自然语言处理 (NLP) 的争议

NLP 一直处于许多争议的中心。有些直接以模型及其输出为中心,其他则以二阶问题为中心,例如谁可以访问这些系统,以及训练它们如何影响自然世界。

随机鹦鹉:一篇 2021 年的论文,题为“关于随机鹦鹉的危险:语言模型会不会太大?” 由 Emily Bender、Timnit Gebru、Angelina McMillan-Major 和 Margaret Mitchell 研究语言模型如何重复和放大在训练数据中发现的偏差。作者指出,从网络上搜集的大量未经整理的数据集必然包含社会偏见和其他不良信息,而基于这些数据集训练的模型将吸收这些缺陷。他们提倡更加谨慎地管理和记录数据集,在开发之前评估模型的潜在影响,并鼓励在设计越来越大的架构以摄取越来越大的数据集以外的方向进行研究。

连贯性与感知力:最近,一位负责评估 LaMDA 语言模型的谷歌工程师对其聊天输出的质量印象深刻,以至于他认为它是有感知力的。将类人智能归因于 AI 的谬论可以追溯到一些最早的 NLP 实验。

环境影响:大型语言模型在训练和推理过程中都需要大量能量。一项研究估计,训练一个大型语言模型在其运行寿命期间排放的二氧化碳是一辆汽车排放量的五倍。另一项研究发现,与训练相比,模型在推理过程中消耗的能量甚至更多。至于解决方案,研究人员建议使用位于拥有大量可再生能源的国家/地区的 云服务器作为抵消这种影响的一种方法。

高成本让非企业研究人员望而却步:训练或部署大型语言模型所需的计算要求对于许多小公司来说过于昂贵。一些专家担心,这可能会阻碍许多有能力的工程师为人工智能创新做出贡献。

黑匣子:当深度学习模型呈现输出时,很难或不可能知道它为什么会生成特定结果。虽然逻辑回归等传统模型使工程师能够检查对单个特征输出的影响,但自然语言处理中的神经网络方法本质上是黑匣子。此类系统被称为“不可解释的”,因为我们无法解释它们是如何得出输出结果的。一种实现可解释性的有效方法在银行业等领域尤为重要,监管机构希望确认自然语言处理系统不会歧视某些人群,而执法部门则在历史数据上训练的模型可能会延续历史偏见某些群体。

“高跷上的废话”:作家加里马库斯批评基于深度学习的 NLP 生成复杂的语言,误导用户相信自然语言算法理解他们在说什么,并错误地认为它们能够进行比目前更复杂的推理。

如果您想了解有关 NLP 的更多信息,请尝试阅读研究论文。通读介绍本文中描述的模型和技术的论文。大多数都可以在arxiv.org上轻松找到。您还可以查看这些资源:

The Batch:一份每周时事通讯,告诉您 AI 中的重要事项。这是跟上深度学习发展的最佳方式。

NLP 新闻:来自 Google 研究科学家塞巴斯蒂安·鲁德 (Sebastian Ruder) 的时事通讯,重点介绍了 NLP 的最新动态。

Papers with Code:机器学习研究、任务、基准和数据集的网络存储库。

我们强烈建议学习在 Python 中实现基本算法(线性和逻辑回归、朴素贝叶斯、决策树和普通神经网络)。下一步是采用开源实现并使其适应新的数据集或任务。


结论

NLP 是 AI 中快速发展的研究领域之一,其应用涉及翻译、摘要、文本生成和情感分析等任务。企业使用 NLP 为越来越多的应用程序提供支持,包括内部应用程序(如检测保险欺诈、确定客户情绪和优化飞机维护)和面向客户的应用程序(如 谷歌翻译)。

有抱负的 NLP 从业者可以从熟悉基础 AI 技能开始:执行基础数学、使用 Python 编码以及使用决策树、朴素贝叶斯和逻辑回归等算法。在线课程可以帮助您打下基础。当您进入专业主题时,它们也可以提供帮助。专攻 NLP 需要具备神经网络、PyTorch 和 TensorFlow 等框架以及各种数据预处理技术等方面的工作知识。自 2017 年推出以来彻底改变了该领域的 transformer 架构是一个特别重要的架构。

NLP 是一门令人兴奋和有益的学科,有可能以许多积极的方式对世界产生深远的影响。不幸的是,NLP 也是几个争议的焦点,理解它们也是成为负责任的从业者的一部分。例如,研究人员发现模型会重复在训练数据中发现的有偏见的语言,无论它们是反事实的、种族主义的还是仇恨的。此外,复杂的语言模型可用于生成虚假信息。更广泛的担忧是训练大型模型会产生大量温室气体排放。


本文转自: 新技术观察,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章