媒体报道

自然语言理解基本技术分为词法分析、句法分析、语义分析三类

标签:媒体报道
作者:Admin
时间:2019/10/8 16:06:11

自然语言理解技术概述

1. 含义

自然语言理解以语言学为基础,融合逻辑学、计算机科学等学科,通过对语法、语义、语用的分析,获取自然语言的语义表示。

2. 自然语言理解技术概述

2.1 基于规则的方法

(1)指利用规则定义如何如何从文本中提取语义。大致思路是人工定义很多语法规则,它们是表达某种特定语义的具体方式,然后自然语言理解模块根据这些规则解析输入该模块的文本。

(2)优点:灵活,可以定义各种各样的规则,而且不依赖训练数据;

(3)缺点:需要大量的、覆盖不同场景的规则,且随着规则数量的增长,对规则进行人工维护的难度也会增加。

(4)结论:只适合用在相对简单的场景,其优势在于可以快速实现一个简单可用的语义理解模块。

2.2 基于统计的方法

(1)通常使用大量的数据训练模型,并使用训练所得的模型执行各种上层语义任务。

(2)优点:数据驱动且健壮性较好;

(3)缺点:训练数据难以获得且模型难以解释和调参;

(4)通常使用数据驱动的方法解决分类和序列标注方法。

2.3 在具体实践中,通常将这两种方法结合起来使用

(1)没有数据及数据较少时先采取基于规则的方法,当数据积累到一定规模时转为使用基于统计的方法。

(2)在一些基于统计的方法可以覆盖绝大多数场景,在一些其覆盖不到的场景中使用基于规则的方法兜底,以此来保证自然语言理解的效果。

2.4 应用

(1)意图识别

  • 实质:分类问题

  • 输入:句子的文本特征

  • 输出:句子文本特征所属的意图分类

  • 算法:SVM、AdaBoost算法等

(2)实体抽取

  • 实质:序列标注

  • 输入:句子的文本特征

  • 输出:文本特征中的每个词或每个字属于某一实体的概率

  • 算法:隐马尔可夫模型(hidden Markov model,HMM),条件随机场(conditional random field,CRF)

注:当数据量足够大时,使用基于神经网络的深度学习方法处理意图识别和实体抽取任务可以取得更好的效果。

四、自然语言理解基本技术

自然语言理解基本技术分为词法分析、句法分析、语义分析三类。

1. 词法分析

词法分析包括分词和词性标注。

1.1 分词 word segmentation

(1)含义:中文不同于英文,其没有自然分隔符(明显的空格标记),因此汉语自然语言处理的首要工作就是将输入的字串切分为单独的词语。

(2)分词方法:

A、基于词表匹配的方法:会逐字对字符串进行扫描,发现字符串的子串和词表中的词相同就算匹配。

常见方法:有正向最大匹配法、逆向最大匹配法、双向扫描法和逐词遍历法。

常见的基于词表的分词工具:IKAnalyzer、庖丁解牛等。

B、基于统计模型的方法:根据人工标注的词性和统计特征对中文进行建模,通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。

常见算法:HMM、CRF

常见的基于统计模型的分词工具:ICTCLAS、Stanford word segmenter等。深度学习兴起后,长短期记忆网络LSTM结合CRF的方法得到了快速发展。

1.2 词性标注

(1)含义:词性是词语最基础的语法属性之一,因此词性标注Part-Of-Speech Tagging,POS Tagging是词法分析的一部分。

(2)目的是为句子中的每个词赋予一个特定的类别,即为分词结果中的每个单词标注词性。

(3)最重要的词性为名词、动词、形容词和副词。

(4)模型:最初隐马尔可夫、之后最大熵模型、支持向量机模型

(5)两种方法:基于规则的方法、基于统计模型的方法

基于规则的词性标注:兼类词搭配关系和上下文语境建造词类消歧规则;



正道诚信 真知灼见