人类交流复杂而迷人,常含误解,但我们通过语言、表情乃至眼神传递意义。斯坦福教授曼宁称之为“离散、符号、分类的信号系统”。当计算介入,便诞生了自然语言处理(NLP)——一门让机器理解并回应用户意图的学科,自上世纪50年代图灵测试起持续演进。
以下介绍NLP的几项基础文本处理技术,并附Python示例。
标记化:将句子拆分为单词(标记)。如“The red fox jumps over the moon.”可拆为7个标记。
词性标注:判定单词的句法功能(名词、动词等),以区分词义,如“permit”作动词或名词。
停用词删除:移除“a”“the”等无实质意义的词,保留关键信息。
词干提取:将单词还原为词干,如“likes”“liked”统一为“like”,常用于搜索引擎。
词形还原:与词干提取类似,但返回完整的词典词形,如“better”还原为“good”,结果更可读。
这些技术是搜索引擎、语音助手(如Alexa、Siri)的基石,让机器更好地服务人类。NLP并非玩具,而是通向无缝智能交互的未来。