首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云智能硬件“看、听、说”多模态大模型技术与实践概要

腾讯云智能硬件“看、听、说”多模态大模型技术与实践概要

原创
作者头像
gawain2048
发布2026-05-30 01:01:08
发布2026-05-30 01:01:08
1020
举报

数据与观点来源:腾讯云音视频物联网总经理 龙一民 于腾讯全球数字生态大会·城市峰会(青岛)发表的《AI大模型时代,腾讯云带给智能硬件开发者“看、听、说”最佳实践》主题报告。

一、 产品定位与核心亮点

技术定义

腾讯云为智能硬件开发者提供了一套标准化、多模态的 I/O 大模型开放能力框架。该框架基于底层的 RTC(实时音视频)与 P2P 服务,融合了 ASR(自动语音识别)、LLM(大语言模型)、TTS(文本转语音)等技术,使智能硬件具备“看”(视觉感知)、“听”(语音交互)、“说”(多语种表达)的全方位拟人化能力。

商业差异化卖点

  1. 微信生态原生打通:独家支持设备端一键拨打微信原生音视频通话,具备与微信手机端完全一致的高触达率和流畅体验
  2. 极低资源消耗:底层架构全线适配视频、音频芯片,深度支持 RTOS 与 Linux 操作系统,实现快启动、低功耗。
  3. 全栈模块化集成:提供从底层唤醒降噪、到 RTC 传输、再到顶层 AI 智能体(Agent)的端到端解决方案,并支持灵活外接第三方 LLM 与 TTS

二、 产品应用场景

本方案针对不同目标人群与业务困境,在以下核心场景提供解决方案:

  • 会议与办公场景(面向职场人士/跨国团队):解决开放工位嘈杂、多语种沟通障碍、多人发言记录混乱的痛点,提供纯净收音、多说话人分离与实时多语种字幕。
  • 家庭与陪伴场景(面向儿童/长者):解决无屏或弱交互设备的沟通难题。通过微信原生通话实现亲情互联;利用 AI Agent 提供教育(听写、背诵、口语陪练)与陪伴(情感陪伴、康养咨询)。
  • 直播与社交场景(面向主播/大众用户):在视频直播中解决画质与互动问题(画质超分、电商/运动直播互动);在社交中解决快速连接问题(碰一碰加好友、近场交换名片)。

三、 应用框架和功能介绍

1. 功能框架 (TWeTalk 多模态对话架构)

  • 底层处理层:部署于 Linux/RTOS 硬件端,负责唤醒、降噪、回声消除、远场增益。
  • 通信服务层:包含 双向音视频 P2P 服务RTC 服务
  • AI 核心链路:RTC 音视频流接入 -> ASR 识别 -> 语义打断 -> LLM 处理 -> TTS 播报。
  • 顶层应用模块
    • TWeSee (多模态):负责视频语义理解、拍照识图。
    • TWeCall (微通话):负责设备拨打微信音视频通话。
    • TWeTalk (AI对话):支撑教育、陪伴机器人、全屋智能(Function Call)等场景。
    • AI Agent:覆盖陪伴、教育、出行、客服、酒店服务。

2. 硬核指标

  • 支持系统:全面支持 RTOS、Linux 操作系统。
  • 语言与翻译支持:实时转写与翻译支持高达 17种语言(包括中文、英语、日语、韩语、俄语、泰语等东南亚语言,以及德法意葡西)。
  • 弱网抗性:在弱网环境下,系统支持自动切换至腾讯 Penguins 语音引擎,保障音质体验。

3. 产品优势全景扫描

  • 音频降噪与增强
    • 自动识别并抑制环境噪音。
    • 回声抵消(AEC)、啸叫检测、自动增益控制(AGC)技术。
    • 主讲人语音增强:基于声纹抑制其他干扰人声。在智能眼镜场景下,支持“所见即所听”,仅识别视线焦点主讲人的声音,自动过滤“陌生人”声音
  • 智能语音与转写
    • 多说话人分离:通过声纹将转写内容按发言人精准拆分,并支持会后按发言人快速回顾定位。
    • 方言大模型:深度支持地方方言(如上海话、四川话)的精准转写,适应复杂语义环境(如售楼沙盘讲解、汽车试驾讲解)。
    • 自定义词库:支持添加自定义热词、行业专属词汇(涵盖教育、财经、健康、法律、科技等),大幅提升专有名词识别准确率。
  • 微信通信连接
    • 设备一键呼叫,微信端持续响铃提醒,编解码无压力。
  • 多模态视觉 (AR/图像)
    • 支持 AR 互动识别(如头显知识问答、实体物品的空间坐标操控)。
    • 具备强大的图像处理与语义理解能力(如照片背景行人一键消除)。

4. 荣誉背书

(注:根据提供的原文档,本次报告聚焦于技术架构与功能实践,未展示特定的外部技术荣誉或奖项背书。)

四、 典型案例

(注:原文档未展示带有具体企业名称的商业化案例,而是通过具体测试场景与硬件终端示例来验证技术成效,以下按原文最大信息量进行标准化梳理)

案例 1:智能眼镜会议记录与主讲人增强

  • 背景:在开放工位或户外喧闹场景下进行会议或交谈,背景噪音大,传统 ASR 容易把旁人(陌生人)的声音错误录入,导致会议纪要混乱。
  • 解决方案:搭载了音频降噪模块与主讲人语音增强功能。利用眼镜第一视角的特性,结合声纹识别技术。
  • 成效:眼镜看着的主讲人声音被精准识别,系统自动抑制“陌生人”的人声干扰不被 ASR 转写,最终生成“纯粹和干净”的字幕和纪要

案例 2:腾讯云方言大模型在本地化营销中的应用

  • 背景:在汽车试驾(上海)与楼盘沙盘讲解(成都彭山)等高净值销售场景中,销售人员与客户常使用地方方言沟通,传统语音识别无法记录真实的沟通细节。
  • 解决方案:接入腾讯云方言大模型
  • 成效:成功将充满本地词汇的复杂长句(如上海话的“噶车子”、“阿拉车子”,四川话的“彭山这边”、“背山面水”)进行高精度文本转写,完整还原业务对话上下文。

案例 3:智能带屏设备/陪伴机器人的微信原生通话

  • 背景:传统 IoT 设备独立呼叫 APP 触达率低,用户容易漏接家人的紧急呼叫,且设备算力低,难以支撑高功耗视频流。
  • 解决方案:集成 TWeCall(微通话) 模块。
  • 成效:实现了设备一键呼叫,手机微信端持续响铃提醒,触达率与原生微信一致;在低算力芯片上实现快启动,资源占用极低且编解码无压力

案例 4:TWeSee 视觉识别与图像处理 (环球影城游客照)

  • 背景:用户在热门景点(如环球影城地球仪前)拍照留念时,背景存在大量走动的无关游客,影响图像观感。
  • 解决方案:调用多模态视觉的图像语义理解与处理能力。
  • 成效:精准识别照片主体人物与背景,将背景中原本杂乱的行人彻底消除并智能补全背景,生成干净的单人/双人合影。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、 产品定位与核心亮点
  • 二、 产品应用场景
  • 三、 应用框架和功能介绍
    • 1. 功能框架 (TWeTalk 多模态对话架构)
    • 2. 硬核指标
    • 3. 产品优势全景扫描
    • 4. 荣誉背书
  • 四、 典型案例
    • 案例 1:智能眼镜会议记录与主讲人增强
    • 案例 2:腾讯云方言大模型在本地化营销中的应用
    • 案例 3:智能带屏设备/陪伴机器人的微信原生通话
    • 案例 4:TWeSee 视觉识别与图像处理 (环球影城游客照)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档