NLP

中文NLP用什么?中文自然语言处理的完整机器处理流程

作者:宿永杰
宿永杰现就职于某知名互联网公司担任数据挖掘工程师,PC 端全栈开发工程师,擅长 Java 大数据开发、Python、SQL 数据分析挖掘等,参与过客户画像、客户识别以及自然语言处理等项目的开发,目前致力于中文自然语言处理的研究。

为什么会有分词

我们知道自然语言处理中词为最小的处理单元,当你的语料为句子、短文本、篇章时,我们要做的第一步就是分词。

由于英语的基本组成单位就是词,分词是比较容易的。其句子基本上就是由标点符号、空格和词构成,那么只要根据空格和标点符号将词语分割即可。

中文和英文就有很大不同了。虽然基本组成单位也是词,但是中文文本是由连续的字序列构成,词与词之间是没有天然的分隔符,所以中文分词相对来说困难很多。

首当其冲的就是歧义问题,不同的分割方式会导致不同的意思。中文分词目前来说基本上分为2种:
1. 基于词典来进行分词的。优点是简单有效,缺点是无法很好的解决词的歧义问题,尤其在应对网络新的流行词汇时,表现很差

同步内容
--电子创新网--
粤ICP备12070055号