【自然语言处理】概览

导言:根据2018年AMiner出品的《自然语言处理研究报告》和2016年中国中文信息学会出品的《中文信息处理发展报告》,我简单对自然语言处理这个领域进行概览,以便后面自己更深度的学习。(说明:本文大部分内容参考上述提及的两份报告,建议读者阅读原报告!)

0 目录

  1. 概念
  2. 分类
  3. 基础技术
  4. 应用技术

1 概念

自然语言处理,是指用计算机对人类语言进行理解、转化、生成等过程。一般包含两个流程,即自然语言理解自然语言生成,理解是指计算机可以理解自然语言文本的意义,生成则是指计算机能以自然语言文本来表达给定的意图。

(1)提问:自然语言的理解过程是什么?
答:语言学家定义了一个层次化的分析过程,语音分析->词法分析->句法分析->语义分析->语用分析

(2)提问:如何判断计算机是否理解了某种自然语言?
答:学者们普遍采用图灵试验来判断,具体的标准如下:

  1. 问答,机器能正确回答输入文本中的相关问题;
  2. 文摘生成,机器有能力生成输入文本的摘要;
  3. 释义,机器能用不同的词语和句型来复述其输入的文本;
  4. 翻译,机器具有把一种语言翻译成另一种语言的能力。

2 分类

自然语言处理研究领域可以分为两大类:基础技术应用技术

基础技术包括:

  1. 词法与句法分析
  2. 语义分析
  3. 语篇分析
  4. 知识图谱
  5. 语言认知模型
  6. 语言表示

应用技术包括:

  1. 文本分类与聚类
  2. 信息抽取
  3. 情感分析
  4. 自动文摘
  5. 信息检索
  6. 信息推荐
  7. 自动问答
  8. 机器翻译
  9. 社会媒体处理
  10. 语音技术

3 基础技术

自然语言处理的基础技术包括词汇、短语、句子和篇章级别的表示,以及词法分析、句法分析、语义分析等等。

(1)词法分析:包括分词和词义标注。分词是将输入的文本切分为单独的词语。词性标注是为每一个词赋予一个类别,重点是解决兼类词和确定未登录词。

(2)句法分析:判断句子结构和组成句子的各成分,从而明确它们之间的相互关系,包括完全句法分析和浅层句法分析。完全句法分析,是通过一系列的句法分析过程得到一个句子的完整的句法树,其主要存在两个难点,一是词性歧义,二是搜索空间太大。浅层句法分析,包含语块识别、语块之间的依存关系两个任务(由于完全句法分析难度较大,浅层句法分析相当于简化任务,要求识别句子中某些结构相对简单的成分如动词短语、非递归的名词短语等,这些结构被称为语块。)

(3)语义分析:通过建立有效的模型和系统,实现在各个语言单位(包括词汇、句子和篇章等)的自动语义分析,从而实现理解整个文本表达的真实语义。具体来说,在词的层面上,基本任务是进行词义消歧;在句子层面上,关注语义角色标注;在篇章层面上,关注指代消解

4 应用技术

自然语言处理的应用技术非常之多,包括机器翻译、信息检索、情感分析、社会媒体处理等。

(1)机器翻译:通过运用机器,将一种形式的自然语言翻译成另一种形式的自然语言。广义上说,按照媒介可以分类为文本翻译、语义翻译、图像翻译和视频翻译等。文本翻译是最为常见的应用场景。

(2)信息检索:“关键词查询+选择性浏览”的交互方式是信息检索主要形式。

(3)情感分析:是指通过计算技术对文本的主观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。

(4)自动问答:利用计算机自动回答用户所提的问题,以满足用户知识需求的任务。根据目标数据源的不同,问答技术大致可以分为检索式问答、社区问答和知识库问答三种。

(5)自动文摘:依据用户需求,从源文本中提取最重要的信息内容,进行精简、提炼和总结,最后生成一个精简的文本。

参考文献

  1. 2018年AMiner出品的《自然语言处理研究报告》
  2. 2016年中国中文信息学会出品的《中文信息处理发展报告》
  3. 宗成庆 《统计自然语言处理》第2版

有任何问题,欢迎和我讨论!【个人主页:http://guohai.tech 邮箱:xuguohai7@163.com】