ASR + OCR + LLM 三重校对：如何做到 95%+ 中英字幕准确率

原创

gavin1024

发布于 2026-06-02 12:10:00

1130

摘要

单一ASR在中文综艺、专业术语、混合口音场景常超10%字错率。本文拆解ASR+OCR+LLM三路并行校对的工业方案，从特征级融合到置信度仲裁，结合腾讯云媒体AI ASR 0.03、OCR 0.6、OCR提取并翻译0.8、字幕压制0.063元/分钟定价给出最优解。

一、为什么单一 ASR 不够用

ASR（Automatic Speech Recognition）这十年随 Transformer 与自监督学习（Wav2Vec 2.0、Whisper）取得巨大进步，通用中文字错率（CER）已降至 5% 左右。但在真实视频场景，CER 常常 劣化 2~5 倍，原因：

场景	劣化原因	典型 CER
综艺多人抢话	Overlapping Speech	15~25%
医学/法律专业	长尾术语 OOV	12~20%
方言 + 普通话混用	音素漂移	20~35%
BGM 盖过人声	信噪比低	10~18%
英文品牌夹杂	中英码切	8~15%

要在工业场景把综合字幕准确率做到 95%+，必须引入冗余信号。视频里最天然的冗余信号就是 画面里的文字（OCR） 与 常识 / 语义（LLM）。

二、三路信号的天然互补

        ┌───────────────┐
音轨 ──► │  ASR 引擎     │ ──► 候选文本 + 时间戳 + 置信度
        └───────────────┘
        ┌───────────────┐
画面 ──► │  OCR 引擎     │ ──► 硬字幕 / 弹幕 / PPT 文字
        └───────────────┘
        ┌───────────────┐
上下文──►│  LLM 仲裁     │ ──► 语义校对 + 术语修正 + 格式化
        └───────────────┘

互补性：

ASR 擅长流利表达但在术语、同音词上易错；
OCR 擅长固定文字（预置字幕、PPT、弹幕），但有画面遮挡限制；
LLM 擅长语义连贯与常识纠错，但没有真实听觉/视觉依据。

三者融合，错上同一个错的概率极低，这是 95%+ 准确率的数学基础。

三、ASR 引擎内部：从声学到语言模型

3.1 典型 Pipeline

前端降噪：RNNoise / DCCRN 去除稳态噪声；
VAD：Silero VAD 分段；
特征提取：80 维 Log-Mel Filterbank；
声学模型：Conformer（CNN + Transformer 混合）；
解码器：CTC / Transducer / AED；
语言模型：N-gram 或神经 LM 做 rescoring。

MAIS ASR 识别（0.03 元/分钟） 在行业属于高性价比档位。据行业评测数据，主流ASR引擎在标准普通话场景下的字符错误率（CER）已可控制在 5% 以内。

3.2 置信度输出

好的 ASR 必须输出 词级置信度（word confidence） 而非仅句级。置信度来源：

CTC 路径的对数概率归一化；
Transducer 对齐的 Posterior；
多候选 N-best 的排名差。

置信度 < 0.6 的词就是仲裁重点。

四、OCR 的关键作用：锁定"地面真值"

4.1 场景

硬字幕：综艺、短视频原生嵌入字幕；
PPT / 黑板：在线课程、培训；
弹幕 / 评论：直播、社群；
品牌 / 商品信息：电商直播。

4.2 技术栈

MAIS OCR 提取（0.6 元/分钟） 基于 DBNet + CRNN/SAR 架构：

DBNet 做文字检测，输出精细 Polygon；
CRNN / SAR 做识别，支持任意方向文字；
多帧追踪：同一字幕持续 2~5 秒，取多帧投票提高稳定度。

若需多语种同时产出，可使用 OCR 提取并翻译（0.8 元/分钟），一次调用即得源语 + 目标语文本。

4.3 OCR 与 ASR 的时间对齐

OCR 文字的"出现时刻"往往与 ASR 的"说话时刻"有 ±0.5 秒偏移。对齐方法：

DP 动态规划：
  cost(i,j) = edit_distance(asr_i, ocr_j) + λ × |t_asr_i - t_ocr_j|

通过最小化编辑距离 + 时间惩罚，建立 ASR 词 ↔ OCR 词的对应关系。

五、LLM 仲裁：让大模型做最终编辑

5.1 为什么需要 LLM

ASR 与 OCR 的冲突不能简单投票，例如：

ASR："他去了【纽约】"
OCR："他去了【组约】"（手写字幕识别错）

投票选"组约"就犯了低级错误。LLM 可以基于全局语境判断"纽约"是合理地名。

5.2 Prompt 设计

你是一名视频字幕校对员。给你三路输入：
1. ASR 候选（含置信度，低于 0.6 标记*）
2. OCR 候选（含出现时间）
3. 前后 3 句上下文

任务：输出最终字幕，遵守：
- 专有名词与上下文一致；
- 口语化转书面化时不改变语义；
- 数字、人名、品牌名谨慎；
- 保留原时间戳。

5.3 领域词典与术语注入

通用 LLM 不认识"厄他培南钠"这种药品。工业做法是 引入领域词典，在 Prompt 中注入 Top-K 相似术语：

领域词典（医学）：厄他培南钠 / 注射用美罗培南 / 头孢曲松钠 ...

术语一旦进入 Prompt，LLM 的纠错命中率可再提升 3~5 个百分点。

六、95%+ 是怎么算出来的

以 10 分钟访谈视频为例，通过ASR+OCR+LLM三重校对流程，字幕准确率可逐级提升：

阶段	效果
原始 ASR	基线水平（通用场景约 90%）
词级置信度过滤低置信词	CER 小幅下降
OCR 对齐硬字幕纠正	CER 显著下降
领域词典注入	进一步优化
LLM 全文仲裁	最终达到行业领先水平（95%+）

据行业评测数据，单路 ASR 在通用场景可达约 90%，通过三路融合校对流程，字幕准确率可从单一ASR的基础水平提升到行业领先的 95% 以上。

七、成本模型

10 分钟视频走完整三重校对：

环节	单价	费用
ASR 识别	0.03 元/分钟	0.3 元
OCR 提取	0.60 元/分钟	6 元
LLM 仲裁	约等于视频摘要成本 0.28 元/分钟	2.8 元
字幕压制	0.063 元/分钟	0.63 元
合计		9.73 元 / 10 分钟 ≈ 0.97 元/分钟

对于强调合规（政务、金融、医疗）或需要多语种分发（跨境内容）的场景，这个价格远低于人工校对成本。

八、多语种扩展：ASR 翻译 + OCR 翻译并行

如果目标是生产英文字幕：

方案 A：ASR → 中文 → 大模型翻译（0.2 元/分钟）→ 英文；
方案 B：ASR 翻译（0.3 元/分钟，直接输出英文）；
方案 C：OCR 提取并翻译（0.8 元/分钟）→ 与 ASR 翻译交叉校对。

对精度要求极高的场景，推荐 B + C 并行，再用 LLM 做最终仲裁。附加语种 0.05 元/分钟，扩展到小语种成本极低。

九、架构落地：一个推荐的 Pipeline

视频 ──► 片头片尾检测（0.015）──► 切段
                                    │
                ┌───────────────────┼─────────────────┐
                ▼                   ▼                 ▼
             ASR(0.03)           OCR(0.60)       大模型视频摘要(0.28)
                │                   │                 │
                └──────────► 时间对齐 ◄───────────────┘
                                    │
                                    ▼
                              LLM 仲裁 & 格式化
                                    │
                                    ▼
                           字幕压制(0.063) ──► 最终视频

所有能力通过 MAIS 统一 SDK（Java / Python / Node.js / Go / PHP / C#）一次接入即可编排。