1 计算机对自然语言处理的过程
1.1 把需要研究是问题在语言上建立形式化模型,使其可以数学形式表示出来,这个过程称之为"形式化"
1.2 把数学模型表示为算法的过程称之为"算法化"
1.3 根据算法,计算机进行实现,建立各种自然语言处理系统,这个过程是"程序化"
1.4 对系统进行评测和改进最终满足现实需求,这个过程是"实用化"
2 自然语言处理涉及的知识领域
语言学、计算机科学(提供模型表示、算法设计、计算机实现)、数学(数学模型)、心理学(人类言语心理模型和理论)、哲学(提供人类思维和语言的更深层次理论)、统计学(提供样本数据的预测统计技术)、电子工程(信息论基础和语言信号处理技术)、生物学(人类言语行为机制理论)。故其为多边缘的交叉学科
3 自然语言处理涉及的范围
3.1语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等等,总之分为四大方向:
语言学方向
数据处理方向
人工智能和认知科学方向
语言工程方向
3.2也可细分为13个方面
口语输入:语音识别、信号表示、鲁棒的语音识别、语音识别中的隐马尔科夫模型方法、语言模型、说话人识别、口语理解
书面语输入:文献格式识别、光学字符识别(OCR):印刷体识别/手写体识别、手写界面、手写文字分析
语言分析理解:小于句子单位的处理、语法的形式化、针对基于约束的语法编写的词表、计算语义学、句子建模和剖析技术、鲁棒的剖析技术
语言生成:句法生成、深层生成
口语输入技术:合成语音技术、语音合成的文本解释、口语生成
话语分析与对话:对话建模、话语建模口语对话系统
文献自动处理:文献检索、文本解释:信息抽取、文本内容自动归纳、文本写作和编辑的计算机支持、工业和企业中使用的受限语言
多语问题的计算机处理:机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证
多模态的计算机处理:空间和时间表示方法、文本与图像处理、口语与手势的模态结合、口语与面部信息的模态结合:面部运动和语音识别
信息传输和信息存储:语音压缩、语音品质的提升
自然语言处理中的数学方法:统计建模和分类的数学理论、数字信号处理技术、剖析算法的数学基础研究、神经网络、有限状态分析技术、语音和语言处理中的最优化技术和搜索技术
语言资源:书面语料库、口语语料库、机器词典与词网的建设、术语编撰和术语数据库、网络数据挖掘和信息提取
自然语言处理系统的评测:面向任务的文本分析评测、机器翻译系统和翻译工具的评测、大覆盖面的自然语言剖析器的评测、语音识别:评估和评测、语音合成评测、系统的可用性和界面的评测、语音通信质量的评测、文字识别系统的评测
4 自然语言处理的发展的几个特点
基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学 的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。
自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
统计数学方法越来越受到重视。
自然语言处理中越来越重视词汇的作用,出现了强烈的"词汇主义"的倾向。
作者:白宁超,工学硕士,现工作于四川省计算机研究院,研究方向是自然语言处理和机器学习。曾参与国家自然基金项目和四川省科技支撑计划等多个省级项目。著有《自然语言处理理论与实战》一书。 自然语言处理与机器学习技术交流群号:436303759 。
出处:http://www.cnblogs.com/baiboy/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。