人类日常对话的反应延迟大约是250毫秒。一旦超过这个时间,哪怕声音再逼真,你也能瞬间察觉对面是个机器人。刚开源的语音大模型 Miso One 把延迟直接干到了110毫秒,比人类反应还要快一倍。再加上只需10秒音频就能克隆出极具情绪起伏的声线,这意味人机语音交互那堵无形的“延迟墙”被彻底推倒了。
这背后的关键在于,声音AI的胜负手已经从“像不像人”变成了“快不快”。当拟真度达到瓶颈后,实时响应的无缝感才是决定用户体验的终极指标。Miso One 作为一个拥有80亿参数却选择开源的项目,直接把打造超逼真、零延迟AI分身的门槛拉到了地板上。未来,那些靠信息差和高收费过活的商用语音服务,好日子怕是要到头了。
github.com/MisoLabsAI/MisoTTS