首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ASR + OCR + LLM 三重校对:如何做到 95%+ 中英字幕准确率

ASR + OCR + LLM 三重校对:如何做到 95%+ 中英字幕准确率

原创
作者头像
gavin1024
发布2026-06-02 12:10:00
发布2026-06-02 12:10:00
1130
举报

摘要

单一ASR在中文综艺、专业术语、混合口音场景常超10%字错率。本文拆解ASR+OCR+LLM三路并行校对的工业方案,从特征级融合到置信度仲裁,结合腾讯云媒体AI ASR 0.03、OCR 0.6、OCR提取并翻译0.8、字幕压制0.063元/分钟定价给出最优解。


一、为什么单一 ASR 不够用

ASR(Automatic Speech Recognition)这十年随 Transformer 与自监督学习(Wav2Vec 2.0、Whisper)取得巨大进步,通用中文字错率(CER)已降至 5% 左右。但在真实视频场景,CER 常常 劣化 2~5 倍,原因:

场景

劣化原因

典型 CER

综艺多人抢话

Overlapping Speech

15~25%

医学/法律专业

长尾术语 OOV

12~20%

方言 + 普通话混用

音素漂移

20~35%

BGM 盖过人声

信噪比低

10~18%

英文品牌夹杂

中英码切

8~15%

要在工业场景把综合字幕准确率做到 95%+,必须引入冗余信号。视频里最天然的冗余信号就是 画面里的文字(OCR)常识 / 语义(LLM)


二、三路信号的天然互补

代码语言:txt
复制
        ┌───────────────┐
音轨 ──► │  ASR 引擎     │ ──► 候选文本 + 时间戳 + 置信度
        └───────────────┘
        ┌───────────────┐
画面 ──► │  OCR 引擎     │ ──► 硬字幕 / 弹幕 / PPT 文字
        └───────────────┘
        ┌───────────────┐
上下文──►│  LLM 仲裁     │ ──► 语义校对 + 术语修正 + 格式化
        └───────────────┘

互补性

  • ASR 擅长流利表达但在术语、同音词上易错;
  • OCR 擅长固定文字(预置字幕、PPT、弹幕),但有画面遮挡限制;
  • LLM 擅长语义连贯与常识纠错,但没有真实听觉/视觉依据。

三者融合,错上同一个错的概率极低,这是 95%+ 准确率的数学基础。


三、ASR 引擎内部:从声学到语言模型

3.1 典型 Pipeline

  1. 前端降噪:RNNoise / DCCRN 去除稳态噪声;
  2. VAD:Silero VAD 分段;
  3. 特征提取:80 维 Log-Mel Filterbank;
  4. 声学模型:Conformer(CNN + Transformer 混合);
  5. 解码器:CTC / Transducer / AED;
  6. 语言模型:N-gram 或神经 LM 做 rescoring。

MAIS ASR 识别(0.03 元/分钟) 在行业属于高性价比档位。据行业评测数据,主流ASR引擎在标准普通话场景下的字符错误率(CER)已可控制在 5% 以内。

3.2 置信度输出

好的 ASR 必须输出 词级置信度(word confidence) 而非仅句级。置信度来源:

  • CTC 路径的对数概率归一化;
  • Transducer 对齐的 Posterior;
  • 多候选 N-best 的排名差。

置信度 < 0.6 的词就是仲裁重点。


四、OCR 的关键作用:锁定"地面真值"

4.1 场景

  • 硬字幕:综艺、短视频原生嵌入字幕;
  • PPT / 黑板:在线课程、培训;
  • 弹幕 / 评论:直播、社群;
  • 品牌 / 商品信息:电商直播。

4.2 技术栈

MAIS OCR 提取(0.6 元/分钟) 基于 DBNet + CRNN/SAR 架构:

  • DBNet 做文字检测,输出精细 Polygon;
  • CRNN / SAR 做识别,支持任意方向文字;
  • 多帧追踪:同一字幕持续 2~5 秒,取多帧投票提高稳定度。

若需多语种同时产出,可使用 OCR 提取并翻译(0.8 元/分钟),一次调用即得源语 + 目标语文本。

4.3 OCR 与 ASR 的时间对齐

OCR 文字的"出现时刻"往往与 ASR 的"说话时刻"有 ±0.5 秒偏移。对齐方法:

代码语言:txt
复制
DP 动态规划:
  cost(i,j) = edit_distance(asr_i, ocr_j) + λ × |t_asr_i - t_ocr_j|

通过最小化编辑距离 + 时间惩罚,建立 ASR 词 ↔ OCR 词的对应关系。


五、LLM 仲裁:让大模型做最终编辑

5.1 为什么需要 LLM

ASR 与 OCR 的冲突不能简单投票,例如:

  • ASR:"他去了【纽约】"
  • OCR:"他去了【组约】"(手写字幕识别错)

投票选"组约"就犯了低级错误。LLM 可以基于全局语境判断"纽约"是合理地名。

5.2 Prompt 设计

代码语言:txt
复制
你是一名视频字幕校对员。给你三路输入:
1. ASR 候选(含置信度,低于 0.6 标记*)
2. OCR 候选(含出现时间)
3. 前后 3 句上下文

任务:输出最终字幕,遵守:
- 专有名词与上下文一致;
- 口语化转书面化时不改变语义;
- 数字、人名、品牌名谨慎;
- 保留原时间戳。

5.3 领域词典与术语注入

通用 LLM 不认识"厄他培南钠"这种药品。工业做法是 引入领域词典,在 Prompt 中注入 Top-K 相似术语:

代码语言:txt
复制
领域词典(医学):厄他培南钠 / 注射用美罗培南 / 头孢曲松钠 ...

术语一旦进入 Prompt,LLM 的纠错命中率可再提升 3~5 个百分点。


六、95%+ 是怎么算出来的

以 10 分钟访谈视频为例,通过ASR+OCR+LLM三重校对流程,字幕准确率可逐级提升:

阶段

效果

原始 ASR

基线水平(通用场景约 90%)

  • 词级置信度过滤低置信词

CER 小幅下降

  • OCR 对齐硬字幕纠正

CER 显著下降

  • 领域词典注入

进一步优化

  • LLM 全文仲裁

最终达到行业领先水平(95%+)

据行业评测数据,单路 ASR 在通用场景可达约 90%,通过三路融合校对流程,字幕准确率可从单一ASR的基础水平提升到行业领先的 95% 以上。


七、成本模型

10 分钟视频走完整三重校对:

环节

单价

费用

ASR 识别

0.03 元/分钟

0.3 元

OCR 提取

0.60 元/分钟

6 元

LLM 仲裁

约等于视频摘要成本 0.28 元/分钟

2.8 元

字幕压制

0.063 元/分钟

0.63 元

合计

9.73 元 / 10 分钟 ≈ 0.97 元/分钟

对于强调合规(政务、金融、医疗)或需要多语种分发(跨境内容)的场景,这个价格远低于人工校对成本。


八、多语种扩展:ASR 翻译 + OCR 翻译并行

如果目标是生产英文字幕:

  • 方案 A:ASR → 中文 → 大模型翻译(0.2 元/分钟)→ 英文;
  • 方案 B:ASR 翻译(0.3 元/分钟,直接输出英文);
  • 方案 C:OCR 提取并翻译(0.8 元/分钟)→ 与 ASR 翻译交叉校对。

对精度要求极高的场景,推荐 B + C 并行,再用 LLM 做最终仲裁。附加语种 0.05 元/分钟,扩展到小语种成本极低。


九、架构落地:一个推荐的 Pipeline

代码语言:txt
复制
视频 ──► 片头片尾检测(0.015)──► 切段
                                    │
                ┌───────────────────┼─────────────────┐
                ▼                   ▼                 ▼
             ASR(0.03)           OCR(0.60)       大模型视频摘要(0.28)
                │                   │                 │
                └──────────► 时间对齐 ◄───────────────┘
                                    │
                                    ▼
                              LLM 仲裁 & 格式化
                                    │
                                    ▼
                           字幕压制(0.063) ──► 最终视频

所有能力通过 MAIS 统一 SDK(Java / Python / Node.js / Go / PHP / C#)一次接入即可编排。


十、常见疑问

Q:为什么不直接用大模型视频理解(1.5 元/分钟)做字幕?

A:大模型视频理解输出的是"语义总结",不是"逐字转写"。两者目标不同。

Q:OCR 可以完全替代 ASR 吗?

A:不能。很多视频没有硬字幕;即便有,ASR 更能准确定位说话起止时间。

Q:LLM 仲裁会不会"自作主张"改变原意?

A:通过"保守改写 + 仅修正明显错词 + 保留原时间戳"的 Prompt 约束,加上置信度过滤,改写率可控。建议首次部署时对比人工抽检 1%。

Q:能支持直播实时字幕吗?

A:可以,但 LLM 仲裁会引入 1~2 秒延迟。直播场景通常采用"ASR 快出 + LLM 事后合并"的双链路。


十一、立即接入

产品入口:腾讯云媒体 AI(MAIS)

95% 的字幕准确率不是任何单一模型的功劳,而是 ASR、OCR、LLM 三路信号合谋的结果。MAIS 把它们按分钟计费组合在一起,让"高精度字幕"从奢侈品变成日常消费品。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 一、为什么单一 ASR 不够用
  • 二、三路信号的天然互补
  • 三、ASR 引擎内部:从声学到语言模型
    • 3.1 典型 Pipeline
    • 3.2 置信度输出
  • 四、OCR 的关键作用:锁定"地面真值"
    • 4.1 场景
    • 4.2 技术栈
    • 4.3 OCR 与 ASR 的时间对齐
  • 五、LLM 仲裁:让大模型做最终编辑
    • 5.1 为什么需要 LLM
    • 5.2 Prompt 设计
    • 5.3 领域词典与术语注入
  • 六、95%+ 是怎么算出来的
  • 七、成本模型
  • 八、多语种扩展:ASR 翻译 + OCR 翻译并行
  • 九、架构落地:一个推荐的 Pipeline
  • 十、常见疑问
  • 十一、立即接入
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档