如上文所述,FunAudioLLM主要包括两大模型SenseVoice和CosyVoice。其中: SenseVoice:精准多语言识别与情感辨识。 我们重点关注SenseVoice。 架构 SenseVoice 是一个语音基础模型,具有多种语音理解功能,包括 ASR、LID、SER 和 AED。 为了适应不同的需求,提出了两种不同规模和架构的模型SenseVoice-Small和SenseVoice-Large。 SenseVoice安装部署 本文以Ubuntu 24.04.2 LTS系统为例 # 克隆代码 git clone https://github.com/FunAudioLLM/SenseVoice.git cd SenseVoice # 创建一个名为venv 的虚拟环境。
模型介绍 SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测 多语言识别: 采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型。 高效推理: SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。 SenseVoice在线预览链接 SenseVoice 在线预览:https://www.modelscope.cn/studios/iic/SenseVoice 本地化部署 这里使用autodl 机器学习平台 然后克隆项目,输入如下命令: git clone https://github.com/FunAudioLLM/SenseVoice.git 如果提示网络超时等,输入如下命令,完了重新拉取代码就好。 然后回到终端,进入SenseVoice目录。 cd SenseVoice/ 创建虚拟环境 # 创建一个名为venv 的虚拟环境。 python -m venv venv 接着激活虚拟环境。
比如"用 SenseVoice 模型 + 通过 FunASR 接口调用 + 用 sherpa-onnx 部署到手机上"。下面先比模型,再讲怎么用、怎么部署。 SenseVoice-Small 的 70ms 测试设备未在仓库中标明。 四、功能对比:谁能做什么? 是中文 ASR 端侧部署覆盖平台最广的方案,集成了 Paraformer 系列(多个变体)、SenseVoice 等中文模型,完全离线运行,不需要网络连接。 需要情感识别或音频事件检测SenseVoice-Small,一个模型同时完成 ASR + 情感 + 事件检测,且推理速度极快(70ms 处理 10 秒音频)。 需要部署到手机或嵌入式设备中文精度优先选 SenseVoice-Small 或 Paraformer,通过 sherpa-onnx 部署,平台覆盖最广。
它无需任何样本即可完成声音克隆,框架主要包含CosyVoice和SenseVoice两个项目:SenseVoice:提供高精度多语言语音识别、情感识别和音频事件检测功能,支持超过50种语言,并实现极低延迟 此外,利用SenseVoice-Large和Paraformer生成伪标签,通过强制对齐模型进一步精炼数据,以确保数据的准确性和标点符号精度。
项目自 2023 年开源以来持续更新,除自研的 Paraformer 系列外,还集成了通义实验室的 Fun-ASR-Nano(支持中文 7 种方言和 26 种地方口音)、SenseVoice 等外部模型 它不仅提供自研模型(Paraformer 系列),还集成了来自其他团队的模型(如通义实验室的 SenseVoice 和 Fun-ASR-Nano、OpenAI 的 Whisper、阿里云的 Qwen-Audio /Python/Java 等 10 种编程语言,覆盖 iOS/Android/Raspberry PiSenseVoice.cpp:基于 GGML 的纯 C/C++ 实现,支持 3/4/5/8 位量化SenseVoice 从 2023 年至今,FunASR 保持着稳定的更新节奏,从自研的 Paraformer 到集成通义实验室的 SenseVoice 和 Fun-ASR-Nano,工具包的模型覆盖和部署能力持续扩展。 FunASRFun-ASR 模型仓库:https://github.com/FunAudioLLM/Fun-ASRSenseVoice 模型仓库:https://github.com/FunAudioLLM/SenseVoice
其核心包括两个创新模型:SenseVoice,用于多语言语音识别、情感识别及音频事件检测;以及 CosyVoice,能够生成多语言、可控音色、说话风格和说话者身份的自然语音。 SenseVoice-Small 为 5 种语言提供极低延迟的自动语音识别(ASR),而 SenseVoice-Large 支持超过 50 种语言的高精度 ASR。 与 SenseVoice 和 CosyVoice 相关的模型已在 Modelscope 和 Huggingface 上开源,相应的训练、推理和微调代码也已在 GitHub 发布。
自部署ASR方案 模型 准确率 部署方式 优点 缺点 适合场景 Whisper (OpenAI) ~93–96% 本地部署 开源、多语言、中文好 实时性一般、算力要求高 对数据隐私要求高、自建呼叫中心 SenseVoice 高准确率+方言) 国外业务/多语言 Google Speech / AWS Transcribe 数据隐私要求高 Whisper / SenseVoice 预计成本:通话$0.005–0.01/分钟 + ASR/TTS自建 ≈ $0.01–0.03/分钟 部署时间:4–8周 方案四:自建全链路(高可控性) 架构:自建SIP服务器 → Whisper/SenseVoice
FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 取得了更优的 CER。
数据工程:开发了一套自动化管道,包括视频/音频质量过滤、场景分割、人声/非人声分类以及多模型协作的稠密标注(使用 Whisper, SenseVoice, Qwen2.5-Omni 等工具)。 使用 Whisper-Large-v3、SenseVoice 和 Qwen2.5-Omni 进行转录,使用 Qwen2.5-Omni 和 Gemini 2.5-Pro 进行音频字幕,并使用视频专家模型进行详细视频标签
Speech ~96% <300ms 120+语言 $0.006/15s 国外首选 2.1.2 选型建议 场景 推荐方案 快速上线、国内业务 讯飞听见 / 阿里云ASR 数据隐私要求高 Whisper / SenseVoice
例如,多模态场景中,可通过Switch将用户输入(文本/图片/音频)路由到对应模型(LLM聊天、InternVL图文问答、SenseVoice语音识别)。
常见的语音识别库有:SenseVoice、Whisper等 从语音识别结果到回答文本的生成(LLM) 这里我们不再赘述NLP中的意图识别等环节了,统一介绍最新称霸江湖的NLP技术大模型。