自然语言处理（NLP）知识结构总结

文章来源：企鹅号 - 四季豆33

一、NLP概述

NLP利用计算机处理书面或口头语言，是人工智能核心领域。主要研究信息检索、机器翻译、文档分类、问答系统、自动文摘、情感分析、语音识别等。其难点包括语言歧义、复杂数学模型及语料获取。

二、形式语言与自动机

语言是句子的集合。描述方式有穷举、文法、自动机。自动机可用于拼写纠正、词性消歧。但形式语言难以刻画自然语言全貌，需转向统计方法。

三、语言模型

通过语料计算句子出现概率，常用n-元模型（如2-元、3-元）。应用包括语音识别歧义消除。统计方法步骤：收集语料统计分析建立算法解释结果。需处理数据平滑（如加一法、古德-图灵法）。模型对文本领域敏感，独立性假设未必成立。

四、概率图模型与HMM

包括贝叶斯网络、马尔可夫链、隐马尔可夫模型（HMM）。HMM三大问题——概率计算（前向/后向算法）、参数估计（EM算法）、解码（维特比算法）需重点掌握。

五、最大熵模型与CRF

HMM存在局限性，引出最大熵马尔可夫模型和条件随机场（CRF）。CRF可解决标记偏置问题，应用于词性标注、中文分词、命名实体识别等，常用工具CRF++。

六、命名实体识别与词性标注

采用CRF等模型，训练阶段设计特征模板，识别阶段用维特比解码。未登录词可借助语料或搜索引擎解决。

七、句法分析

分为完全句法分析和依存分析，常用基于规则或统计的方法。

八、文本分类与情感分析

包括文本表示（特征选择、权重计算）、分类器（SVM、贝叶斯）、评测指标（准确率、F1）。主题模型（LDA）可提取主题词。情感分析本质是特殊分类任务。

九、信息检索与搜索引擎

涵盖布尔模型、向量空间模型、倒排索引、LSA等。评测指标包括查准率、查全率。

十、自动文摘、机器翻译与问答系统

统计机器翻译需处理对齐、调序等；问答系统包含问题分析、检索、答案抽取；自动文摘常用抽取式方法。

十一、深度学习在NLP中的应用

包括词向量训练、文本自动生成、基于CNN/RNN的分类、深度学习与CRF结合用于序列标注。

相关快讯