首页
学习
活动
专区
圈层
工具
发布

自然语言处理(NLP)知识结构总结

一、NLP概述

NLP利用计算机处理书面或口头语言,是人工智能核心领域。主要研究信息检索、机器翻译、文档分类、问答系统、自动文摘、情感分析、语音识别等。其难点包括语言歧义、复杂数学模型及语料获取。

二、形式语言与自动机

语言是句子的集合。描述方式有穷举、文法、自动机。自动机可用于拼写纠正、词性消歧。但形式语言难以刻画自然语言全貌,需转向统计方法。

三、语言模型

通过语料计算句子出现概率,常用n-元模型(如2-元、3-元)。应用包括语音识别歧义消除。统计方法步骤:收集语料统计分析建立算法解释结果。需处理数据平滑(如加一法、古德-图灵法)。模型对文本领域敏感,独立性假设未必成立。

四、概率图模型与HMM

包括贝叶斯网络、马尔可夫链、隐马尔可夫模型(HMM)。HMM三大问题——概率计算(前向/后向算法)、参数估计(EM算法)、解码(维特比算法)需重点掌握。

五、最大熵模型与CRF

HMM存在局限性,引出最大熵马尔可夫模型和条件随机场(CRF)。CRF可解决标记偏置问题,应用于词性标注、中文分词、命名实体识别等,常用工具CRF++。

六、命名实体识别与词性标注

采用CRF等模型,训练阶段设计特征模板,识别阶段用维特比解码。未登录词可借助语料或搜索引擎解决。

七、句法分析

分为完全句法分析和依存分析,常用基于规则或统计的方法。

八、文本分类与情感分析

包括文本表示(特征选择、权重计算)、分类器(SVM、贝叶斯)、评测指标(准确率、F1)。主题模型(LDA)可提取主题词。情感分析本质是特殊分类任务。

九、信息检索与搜索引擎

涵盖布尔模型、向量空间模型、倒排索引、LSA等。评测指标包括查准率、查全率。

十、自动文摘、机器翻译与问答系统

统计机器翻译需处理对齐、调序等;问答系统包含问题分析、检索、答案抽取;自动文摘常用抽取式方法。

十一、深度学习在NLP中的应用

包括词向量训练、文本自动生成、基于CNN/RNN的分类、深度学习与CRF结合用于序列标注。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OaoUbeIzQikn5ONb8dFuSnzA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券