首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • SenseVoice使用记录

    如上文所述,FunAudioLLM主要包括两大模型SenseVoice和CosyVoice。其中: SenseVoice:精准多语言识别与情感辨识。 我们重点关注SenseVoice。 架构 SenseVoice 是一个语音基础模型,具有多种语音理解功能,包括 ASR、LID、SER 和 AED。 为了适应不同的需求,提出了两种不同规模和架构的模型SenseVoice-Small和SenseVoice-Large。 SenseVoice安装部署 本文以Ubuntu 24.04.2 LTS系统为例 # 克隆代码 git clone https://github.com/FunAudioLLM/SenseVoice.git cd SenseVoice # 创建一个名为venv 的虚拟环境。

    14010编辑于 2026-04-22
  • 来自专栏贾维斯Echo的博客

    AI超强语音转文本SenseVoice,本地化部署教程!

    模型介绍 SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测 多语言识别: 采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型。 高效推理: SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。 SenseVoice在线预览链接 SenseVoice 在线预览:https://www.modelscope.cn/studios/iic/SenseVoice 本地化部署 这里使用autodl 机器学习平台 然后克隆项目,输入如下命令: git clone https://github.com/FunAudioLLM/SenseVoice.git 如果提示网络超时等,输入如下命令,完了重新拉取代码就好。 然后回到终端,进入SenseVoice目录。 cd SenseVoice/ 创建虚拟环境 # 创建一个名为venv 的虚拟环境。 python -m venv venv 接着激活虚拟环境。

    9.5K12编辑于 2024-09-05
  • 中文语音识别该用谁?6 个开源模型 + 2 个配套工具,一文理清

    比如"用 SenseVoice 模型 + 通过 FunASR 接口调用 + 用 sherpa-onnx 部署到手机上"。下面先比模型,再讲怎么用、怎么部署。 SenseVoice-Small 的 70ms 测试设备未在仓库中标明。 四、功能对比:谁能做什么? 是中文 ASR 端侧部署覆盖平台最广的方案,集成了 Paraformer 系列(多个变体)、SenseVoice 等中文模型,完全离线运行,不需要网络连接。 需要情感识别或音频事件检测SenseVoice-Small,一个模型同时完成 ASR + 情感 + 事件检测,且推理速度极快(70ms 处理 10 秒音频)。 需要部署到手机或嵌入式设备中文精度优先选 SenseVoice-Small 或 Paraformer,通过 sherpa-onnx 部署,平台覆盖最广。

    2.8K10编辑于 2026-03-20
  • 来自专栏算法一只狗

    “3秒克隆周杰伦声音”?普通人也能玩转AI换声,太疯了!

    它无需任何样本即可完成声音克隆,框架主要包含CosyVoice和SenseVoice两个项目:SenseVoice:提供高精度多语言语音识别、情感识别和音频事件检测功能,支持超过50种语言,并实现极低延迟 此外,利用SenseVoice-Large和Paraformer生成伪标签,通过强制对齐模型进一步精炼数据,以确保数据的准确性和标点符号精度。

    2.3K01编辑于 2025-05-07
  • FunASR:几行代码搞定语音识别全流程的开源工具包,GitHub已获15.2k Star!

    项目自 2023 年开源以来持续更新,除自研的 Paraformer 系列外,还集成了通义实验室的 Fun-ASR-Nano(支持中文 7 种方言和 26 种地方口音)、SenseVoice 等外部模型 它不仅提供自研模型(Paraformer 系列),还集成了来自其他团队的模型(如通义实验室的 SenseVoice 和 Fun-ASR-Nano、OpenAI 的 Whisper、阿里云的 Qwen-Audio /Python/Java 等 10 种编程语言,覆盖 iOS/Android/Raspberry PiSenseVoice.cpp:基于 GGML 的纯 C/C++ 实现,支持 3/4/5/8 位量化SenseVoice 从 2023 年至今,FunASR 保持着稳定的更新节奏,从自研的 Paraformer 到集成通义实验室的 SenseVoice 和 Fun-ASR-Nano,工具包的模型覆盖和部署能力持续扩展。 FunASRFun-ASR 模型仓库:https://github.com/FunAudioLLM/Fun-ASRSenseVoice 模型仓库:https://github.com/FunAudioLLM/SenseVoice

    2.4K41编辑于 2026-03-17
  • 每周AI论文速递(240708-240712)

    其核心包括两个创新模型:SenseVoice,用于多语言语音识别、情感识别及音频事件检测;以及 CosyVoice,能够生成多语言、可控音色、说话风格和说话者身份的自然语音。 SenseVoice-Small 为 5 种语言提供极低延迟的自动语音识别(ASR),而 SenseVoice-Large 支持超过 50 种语言的高精度 ASR。 与 SenseVoice 和 CosyVoice 相关的模型已在 Modelscope 和 Huggingface 上开源,相应的训练、推理和微调代码也已在 GitHub 发布。

    22000编辑于 2025-04-08
  • 来自专栏具身小站

    智能语音对话系统技术方案

    自部署ASR方案 模型 准确率 部署方式 优点 缺点 适合场景 Whisper (OpenAI) ~93–96% 本地部署 开源、多语言、中文好 实时性一般、算力要求高 对数据隐私要求高、自建呼叫中心 SenseVoice 高准确率+方言) 国外业务/多语言 Google Speech / AWS Transcribe 数据隐私要求高 Whisper / SenseVoice 预计成本:通话$0.005–0.01/分钟 + ASR/TTS自建 ≈ $0.01–0.03/分钟 部署时间:4–8周 方案四:自建全链路(高可控性) 架构:自建SIP服务器 → Whisper/SenseVoice

    20810编辑于 2026-04-14
  • 来自专栏机器之心

    小红书语音识别新突破!开源FireRedASR,中文效果新SOTA

    FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 取得了更优的 CER。

    1.9K10编辑于 2025-02-10
  • 硬刚谷歌Veo3!快手Klear统一多任务音视频联合生成:创新单塔架构,口型语音完美同步

    数据工程:开发了一套自动化管道,包括视频/音频质量过滤、场景分割、人声/非人声分类以及多模型协作的稠密标注(使用 Whisper, SenseVoice, Qwen2.5-Omni 等工具)。 使用 Whisper-Large-v3、SenseVoice 和 Qwen2.5-Omni 进行转录,使用 Qwen2.5-Omni 和 Gemini 2.5-Pro 进行音频字幕,并使用视频专家模型进行详细视频标签

    44710编辑于 2026-01-13
  • 来自专栏具身小站

    具备情绪感知的,智能语音对话系统方案

    Speech ~96% <300ms 120+语言 $0.006/15s 国外首选 2.1.2 选型建议 场景 推荐方案 快速上线、国内业务 讯飞听见 / 阿里云ASR 数据隐私要求高 Whisper / SenseVoice

    18710编辑于 2026-04-14
  • 来自专栏Nicky's blog

    LazyLLM测评 | 基于LazyLLM Agent大模型搭建聊天机器人

    例如,多模态场景中,可通过Switch将用户输入(文本/图片/音频)路由到对应模型(LLM聊天、InternVL图文问答、SenseVoice语音识别)。

    42210编辑于 2025-12-17
  • 来自专栏AI研思录

    万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅

    常见的语音识别库有:SenseVoice、Whisper等 从语音识别结果到回答文本的生成(LLM) 这里我们不再赘述NLP中的意图识别等环节了,统一介绍最新称霸江湖的NLP技术大模型。

    4.7K23编辑于 2025-02-20
领券