
语音识别字幕里品牌名识别错、专业术语写成谐音字、中英混杂段落乱码——这些不是通用ASR能单独解决的。腾讯云媒体AI给了一套组合拳:ASR 0.03元/分钟+热词库预注入+大模型校对0.20元/分钟,通过热词库定制+大模型二次校对的组合优化,准确率有望从行业通用水平提升到98%以上(行业评测基准)。
做视频内容的团队都懂:字幕准确率从 90% 掉到 85%,观感掉的可不只是 5%,而是直接被吐槽"这是机器自动生成的吧"。
字幕错字的杀伤力体现在几个地方:
对二次分发和 SEO 场景来说,字幕里的错别字还会影响视频搜索收录——平台索引的是字幕文本,写错了等于白标。
先讲清楚一个事实:据行业评测,通用ASR在标准普通话新闻朗读场景下识别率可到 95% 以上;但在复杂业务场景(术语多、口语化、中英混杂),通用ASR的识别准确率通常在85%-90%区间。原因有三个:
任何语音识别模型都是在公开语料上训练的,而你业务里用到的词——品牌名、产品代号、行业术语、嘉宾人名——模型大概率没见过。模型只能在词表里找最接近的词,结果就是近音字替换。
真实视频里,主播经常用口语化表达,模型在缺少上下文的情况下很难判断"的/地/得"、"做/作"、"因为/应为"这类同音选择。靠模型本身的语言模型来判断,准确率天花板就是 90% 左右。
产品发布会、教学课程、技术分享视频里经常中英混讲:"这个 function 是用来 handle 异步请求的"。通用 ASR 在语种切换点很容易出错,英文部分被识别成中文谐音字,整句话意思全变。
第一层:ASR 识别(0.03 元/分钟)—— 高精度底座
MAIS 的 ASR 识别走的是大规模行业语料训练出来的通用模型,本身在标准场景下识别率就很高。0.03 元/分钟的价格基本可以忽略成本问题——一条 60 分钟的长视频 ASR 识别仅需 1.8 元。
但更关键的是它支持"带时间戳的词级输出",不是一句一句,而是每个词都有时间点。这为后续的热词校对和大模型复核提供了精细的操作空间。
第二层:热词库 —— 告诉模型"你这个业务有哪些专属词"
热词库是字幕准确率从基础水平大幅提升的关键。
它的工作方式是:在 ASR 解码阶段,把你预设的热词列表作为"优先匹配"提示注入模型。模型在解码过程中,遇到发音接近的候选词时,优先匹配热词库里的词,而不是通用词表里的同音字。
典型的热词库内容:
最佳实践:每个项目/账号建一个专属热词库,按品类分组维护。一个典型的热词库规模约 200-500 条核心词,日常内容覆盖率可以覆盖 80% 以上的"易错词场景"。
第三层:大模型校对(大模型翻译 0.20 元/分钟 的衍生能力)—— 把剩余的识别错误进一步抠回来
热词库解决的是"已知的易错词",但还有一部分错误来自上下文相关的识别错误——同音字、口语化、语法错位、断句问题。这类问题需要用大模型来做语义级复核。
MAIS 的思路是:ASR 出草稿,大模型按语义合理性做复审。发现"XX 这个词在上下文里读不通",会主动替换成更合理的候选词。这条能力可以和大模型翻译(0.20 元/分钟)复用同一套模型——做中文字幕的语义校对,和做跨语种翻译,用的是同一种语义理解能力。
这层加上去之后,从"字对"上升到"意对",字幕可以达到接近人工编辑的水平。
一条 10 分钟的产品发布会视频:
合计约 2.3 元。
对比传统"人工校对字幕"流程,行业公开报价区间约 50-150 元/小时分钟(按长度和语言难度定价),10 分钟视频人工校对成本数百元起,还要等交付排期。
准确率提升的业务价值:
特征:专业术语多、讲师固定、长视频多。
配置建议:
特征:口语化多、话题跳跃、信息密度高。
配置建议:
特征:中英混讲、产品型号多、多语种分发。
配置建议:
特征:时效性强、嘉宾多、专业领域杂。
配置建议:
特征:术语错误不可接受、合规审核严。
配置建议:
热词库是"活的"。建立之后要做三件事:
这套体系建成之后,你团队的字幕生产链路就从"出错—返工"变成"预防—兜底",准确率稳定在 98% 上下,返工率接近零。
字幕准确率提上去以后,可以顺势把产线的其他环节也自动化:
给一个最小可执行的落地节奏:
按这个节奏,一个月内团队可以把字幕准确率稳定在 98% 上下,同时完全告别"人工校对每一条视频"的重复劳动。
字幕错别字的根源不是 ASR 模型不行,而是缺了"业务知识注入"和"语义级复核"这两层。把 ASR 识别(0.03 元/分钟)、热词库、大模型校对(0.20 元/分钟)三层组合起来用,准确率从通用水平提升到 98% 以上不是理论值,而是通过热词库定制+大模型二次校对的组合优化,对应每一层解决哪一类问题之后可达到的行业评测基准。具体接入和热词库配置方式请看产品页:https://www.tencentcloud.com/products/mais
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。