信号处理到语言理解的融合技术

原创

用户11764306

发布于 2026-06-07 13:08:25

400

ICASSP：“信号处理”的现代内涵

Alexa科学家Ariya Rastrow探讨声学处理与语言理解之间日益模糊的界限。

作者：Larry Hardesty | 2020年5月4日 | 阅读时间6分钟

会议：ICASSP 2020

国际声学、语音与信号处理会议（ICASSP）于今日开幕，已进入第45个年头。根据谷歌学术排名，它是信号处理领域影响力最高的会议。但随着语音相关技术的成熟，信号处理的定义已经扩展。Alexa首席研究科学家Ariya Rastrow表示：“ICASSP融合了众多不同方向，涵盖了从非常底层的信号处理一直到语义理解和自然语言理解的完整谱系。”

Alexa高级首席科学家Ariya Rastrow

（图片来源：Jordan Stead）

Rastrow解释说，这种多样性恰恰反映了人类音频处理系统的复杂性。大脑并非仅依赖声学信号来识别词语，计算机系统也不应如此。

“从人类的角度来看，语言和声学之间的互动是非常动态的，”Rastrow说，“如果我在非常安静的环境中与你交谈，我们能够在声学层面上以非常高的分辨率进行跟踪。但如果我们坐在嘈杂的酒吧里，作为人类，你会更多地依赖先验知识——在语义层面上，对方可能会说什么？他们可能会谈论哪些话题？——并利用这些来增强识别能力。”

传统上，口语理解任务被分解为两个部分：自动语音识别（ASR），将声学语音信号转换为文本；以及自然语言理解（NLU），理解文本的含义。

但实际上，语音识别通常依赖更高层次的语言特征来识别词语。传统的ASR系统包括：声学模型，将声学信号转换为底层音素表示；词典，将音素序列映射到词语；以及语言模型，利用词语共现的高层统计数据来裁决对声学信号的不同解释。

Rastrow解释说：“二十、二十五年前，构建分解式系统是一种务实的想法。系统组件之间有清晰的界限。传统的语音识别系统构建在我们称之为隐马尔可夫模型（HMM）的架构之上。HMM架构会在推理时将多个知识源整合在一起。但声学模型和语言模型是分开训练的。”

共享表示

然而，这种方法近来已开始让位于基于神经网络的大规模端到端训练架构。也就是说，一个单一的神经网络在由声学输入和完整转录输出组成的样本上进行训练，直接学习之前编码在ASR系统各个组件中的关系。

Rastrow说：“这有很多好处，其一，通过联合训练，我们构建的系统在准确性方面得到了优化。如果你构建分解式系统，通常你针对特定的目标函数训练每个组件，在推理时，它们不知道如何处理不流畅和错误。由于架构的进步以及联合训练和多任务训练，系统对这些类型的混淆变得更加鲁棒。”

“这是一个好处，”Rastrow继续说，“另一个好处是系统效率提高。通过建立知识迁移、联合训练或共享表示的机制，系统的不同部分可以依赖相同类型的表示或（网络的）共享层。这可以压缩系统的整体规模，加快执行速度，并有机会将这些系统部署在资源有限的设备和硬件上。”

“例如，如果你正在进行声学事件检测，同时也在进行唤醒词检测和耳语检测（它们是不同类型的基于音频的分类任务），一种方法是分别构建所有系统。另一种方法是进行知识迁移和共享表示学习，凭借这些共享的网络组件和层，你能在明显的准确性提升之外获得效率。”

“此外，整个系统都在神经网络执行中完成，我们知道如何在软件和硬件两方面加速，而基于显式知识表示的（词典与语言模型）系统则不然。传统上，这些不是基于深度学习的，所以我们无法利用这些效率机制。在过去的两三年里，我们一直朝着这个方向努力。”

完全整合

允许单个大模型整合ASR系统的底层声学信号处理和高层语言建模，这带来了利用更高层次语言特征的可能性。例如，在本年度ICASSP上发表的19篇某机构论文中，某机构的Alexa研究人员报告了使用语义特征来帮助区分针对Alexa的语音和非针对Alexa的语音，而过去Alexa的“设备定向”检测器仅依赖声学特征。

这种整合的终点，当然将是一个执行整个口语理解任务（包括ASR和NLU）的单一神经网络。

Rastrow说：“新兴研究表明，至少对于一部分交互，可以构建一个占用空间小的单一网络，直接将音频转换到语义层面。延迟更小。不再需要分阶段执行。此外，有研究表明人类并不是逐词识别的。我们会在语音中携带对话题和对话语义重要的信息。”

“但挑战依然存在，”Rastrow说，“这些全神经网络系统依赖数据。一旦你靠近理解层，就必须越来越多地应对数据稀疏性和独特交互的细微差别。在声学层面上，对于音素/p/，即使在跨语言情况下，也可以获得大量示例。但随着你靠近语义和句子级理解，模式变得更加独特。”

“一个挑战是，如何将这些用于直接音频到NLU转换的新架构与我们在半监督学习和无监督学习方面的进展结合起来。另一个挑战是，如何将非常依赖数据的学习系统与某种推理或逻辑相结合。”

“举个例子。如果你说‘打开卧室灯’，Alexa误解并打开了厨房灯，你接着又说‘不，Alexa，别打开厨房灯’，这就出现了否定问题。当你说‘别打开它’时，你的实际意思是‘关掉它’。很难在数据中找到这些例子。传统上，我们知道如何用规则、逻辑和推理来解决这个问题，但仅仅依赖数据可能无法为我们提供这些独特模式的好表示。因此，未来两三年研究的问题将是如何将这些系统与半监督或无监督学习相结合，以及如何将它们与知识和逻辑相结合。”

研究领域

对话式人工智能

标签

人工智能（AI）、自动语音识别（ASR）、信号处理、端到端学习、自然语言理解（NLU）、自然语言处理（NLP）

会议

ICASSP 2020

关于作者

Larry Hardesty：某机构科学博客编辑。曾任《麻省理工科技评论》高级编辑和麻省理工学院新闻办公室计算机科学撰稿人。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

语音识别