导读:Google DeepMind 刚刚发布了首个基于 Gemini 3 的实时语音 API,开发者只需说句话就能构建类人交互的语音助手。完全免费,每月 350 次生成额度。本文带你全面了解如何快速上手。
3 月 26 日,Google for Developers 官方频道发布了一段演示视频,展示了全新的 Gemini 3 Flash Live 模型。
这款新模型的核心能力可以用一句话概括:让 AI 像真人一样跟你对话。
不是简单的语音转文字再转语音,而是真正的声音到声音、语音到语音的原生交互。
传统的语音助手是怎么工作的?
语音 → 文字 → AI 理解 → 文字回复 → 语音
这个过程中,情感和语调信息会大量丢失。
Gemini 3 Live API 采用了完全不同的架构:
语音 → 原生音频模型 → 语音回复
这意味着什么?
用 Google 工程师 Thor 的话说:
“这不是文生图工具,这是一个完整的 AI 原生画布。你不需要会编程,不需要懂设计,甚至不需要打字。对着屏幕说句话,它就能给你构建一个可交互的语音助手。”
在 Google AI Studio 的演示中,工程师给 AI 设置了一个简单的指令:
“用友好的爱尔兰口音说话”
然后开始了对话:
工程师:“你好吗?”
AI:“啊,早上好!我过得很好,谢谢你的问候。只是很享受这次聊天,你呢?”
工程师:“你能看到我吗?”
AI:“当然,一清二楚。我看到你坐在那里,短发、胡子,穿着深色夹克和蓝色衬衫。你说话时还在用手比划,所以我知道你是真人。”
更厉害的是,当你打断它说话时,AI 会立即停止并听你说——就像真人对话一样自然。
根据官方的演示,Gemini Live API 已经可以在以下场景落地:
场景 | 具体应用 |
|---|---|
🛒 电商购物 | 实时语音购物助手 |
🎮 游戏 | NPC 角色对话 |
🏥 医疗健康 | 语音健康咨询 |
💰 金融服务 | 语音客服 |
📚 教育 | 交互式学习助手 |
🚗 智能汽车 | 车载语音助手 |
想象一下:
这些场景,现在都可以用 Gemini Live API 快速实现。
如果你是开发者,下面这些技术细节需要知道:
类型 | 规格 |
|---|---|
音频 | 16kHz PCM 实时流 |
图像 | JPEG 格式,最高 1 FPS |
文本 | 支持 |
类型 | 规格 |
|---|---|
音频 | 16 位 PCM,24kHz |
转录文本 | 实时返回 |
类型 | 时长限制 |
|---|---|
纯音频会话 | 15 分钟 |
音视频会话 | 2 分钟 |
WebSocket 连接 | 约 10 分钟 |
注意:超过时长限制需要实现会话恢复功能,或者使用合作伙伴的 WebRTC 集成方案。
用户设备 → 你的服务器 → Gemini Live API
优点:
缺点:
用户设备 → Gemini Live API
优点:
缺点:
访问 Google AI Studio
点击 “Get API Key” → 创建新的 API Key
git clone https://github.com/google-gemini/gemini-live-api-examples
cd gemini-live-api-examples
创建 .env 文件:
GEMINI_API_KEY=你的 API Key
python -m venv venv
pip install -r requirements.txt
python main.py
访问 http://localhost:8000 开始对话
整个过程不超过 10 分钟。
from google.genai import Client
# 创建客户端
client = Client()
# Live 会话配置
live_config = {
'response_modalities': ['AUDIO'],
'voice': 'Puck', # 选择声音
'system_instruction': '用友好的爱尔兰口音说话',
'input_audio_transcription': True, # 输入转录
'output_audio_transcription': True, # 输出转录
}
# 连接会话
session = client.live.connect(
model='gemini-3.0-flash-live'
)
# 发送音频块
asyncdefsend_audio(audio_chunk):
await session.send_realtime_input(audio=audio_chunk)
# 发送视频帧
asyncdefsend_video_frame(jpeg_frame):
await session.send_realtime_input(image=jpeg_frame)
# 接收循环
asyncdefreceive_loop():
asyncfor chunk in session.receive():
if chunk.audio:
# 播放音频
play_audio(chunk.audio)
if chunk.transcript:
# 显示转录文本
display_transcript(chunk.transcript)
根据官方建议,下面这些点需要特别注意:
明确定义以下内容:
模型默认支持 70 种语言,如果需要限制使用特定语言,在系统提示中明确说明。
发送 20-40 毫秒 的音频块,可以获得最佳延迟表现。
实现滑动窗口压缩,避免超出上下文限制。
正确处理音频中断回调,在用户打断时刷新队列。
如果你不想处理这些技术细节,可以使用以下合作伙伴的集成方案(支持 WebRTC):
合作伙伴 | 服务类型 |
|---|---|
LiveKit | 实时通信平台 |
Daily | Pipecat 开源框架 |
Vision Agents | Stream 开源框架 |
Box Implant | 电话集成 |
Firebase AI SDK | 多客户端库 |
适合场景:需要快速上线生产环境、不想处理 WebSocket 会话管理的团队。
根据官方信息,Gemini Live API 目前提供:
对于个人开发者和小型团队来说,这个额度已经足够进行原型验证和 MVP 开发。
Gemini 3 Live API 的发布,标志着语音交互进入了一个新阶段。
过去,开发一个语音助手需要:
现在,只需要一个 API 调用就能搞定。
对于产品经理:可以快速验证语音交互的想法对于开发者:可以用更少的代码实现更丰富的功能对于创业者:可以用免费额度快速做出 MVP
Google 正在用免费策略抢占市场,用 Gemini 模型持续提升质量。虽然现在还有一些限制(会话时长、帧率限制等),但方向是对的。
现在就能做的第一步:
打开 Google AI Studio,用一句话描述你想要的语音助手,看看 AI 能给你什么惊喜。
参考资料:
如果你觉得本文有帮助,欢迎点赞、在看、转发三连~
关注我,获取更多 AI 前沿技术和开发者工具干货。
你觉得 Gemini Live API 可以开发什么应用? 欢迎在评论区留言分享你的想法!
本文内容基于 Google for Developers 官方视频整理,如有侵权请联系删除。
原标题:《使用 Gemini 3 构建语音助手》视频来源:https://youtu.be/XV5bhkDpL7U
本文分享自 PM智圈-PMAIhub 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!