
5月27日,ElevenLabs同一天打出两张牌:Music v2——一个能在歌曲中途切换音乐风格的AI音乐模型;斯坦·李AI声音——用声音克隆技术"复活"已故漫威之父。前者是技术突破,后者是伦理炸弹。两件事放在一起,刚好勾勒出AI音频行业的全貌:能力越来越强,边界越来越模糊。
ElevenLabs这家公司很有意思。
它是目前AI语音赛道估值最高的公司——110亿美元。它不做大模型,不做聊天机器人,专注一件事:声音。语音合成、声音克隆、有声书、配音、现在又加上了音乐。
这次同日放出两个产品,一个让你兴奋,一个让你不安。
用人话说:ElevenLabs左手递给你一把削铁如泥的刀,右手用这把刀切开了一个潘多拉魔盒。
先说让人兴奋的那个。
Music v2最大的突破是Mid-Track Genre Switching——同一首歌曲中途切换音乐风格。
什么意思?你的歌可以从歌剧开始,切到重金属间奏,再回到交响乐结尾——整个过程人声不断、节奏连贯、不会翻车。

这在以前是不可能的。Suno和Udio生成的歌曲,风格从头到尾是统一的。你要么生成一首摇滚,要么生成一首爵士,你不能在一首歌里同时要两种。
Music v2打破了这个限制。
用人话说:以前AI作曲像点外卖——你只能选一个菜系;现在像自助餐——一个盘子里可以装寿司、牛排和火锅。
第二个重要功能是Section Editing(分段编辑)。
传统AI音乐生成 | Music v2 |
|---|---|
一句Prompt→一整首歌 | 分段构建:前奏→主歌→副歌→桥段→结尾 |
不满意?重新生成整首 | 只重新生成不满意的那一段 |
无法精细控制 | 每段可独立调整歌词、风格、时长 |
这意味着Music v2的工作流从"一次性赌博"变成了"迭代式创作"。你可以先生成一个副歌,满意了再生成主歌,不满意的段落单独重来,其他部分不受影响。
这对于专业音乐人来说太重要了——没有哪个音乐人会接受"要么全要,要么全不要"的创作方式。
2026年AI音乐赛道已经形成了三足鼎立的格局。
维度 | ElevenLabs Music v2 | Suno v5 | Udio |
|---|---|---|---|
核心优势 | 人声质量最佳、版权清白 | 整曲质量最高、生态最成熟 | Inpainting精细编辑 |
音频质量 | 最佳人声 | 44.1kHz | 48kHz |
风格切换 | 支持中途切换 | 不支持 | 不支持 |
分段编辑 | 支持 | 有限 | 支持(Inpainting) |
版权状态 | 仅用授权数据训练 | 2025年与唱片公司和解 | 2025年与唱片公司和解 |
估值/收入 | $110亿估值 | 亿估值、24.5亿估值、3亿ARR | 未公开 |
付费用户 | 未公开 | ~200万 | 未公开 |
API | 即将推出 | 可用 | 可用 |
适用场景 | 商业项目、专业配音 | 快速出歌、内容创作 | 精细编辑、后期制作 |
三家的定位差异很明显:
但ElevenLabs有一张王牌:版权。
Suno和Udio都曾被美国唱片工业协会(RIAA)起诉,2025年底才与主要唱片公司达成和解。这意味着它们的训练数据中包含了大量受版权保护的音乐。
ElevenLabs从一开始就只用授权数据训练。这在商业场景中是巨大的优势——你的客户不想用一个有版权风险的工具。
现在说让人不安的那个。
ElevenLabs与Stan Lee Universe签署授权协议,获得了斯坦·李的声音和肖像使用权。
具体包括:
项目 | 内容 |
|---|---|
有声书朗读 | AI斯坦·李在Eleven Reader App中朗读经典书籍,首本是《金银岛》 |
声音市场 | 斯坦·李的AI声音上架Iconic Voice Marketplace,用户可申请使用 |
肖像生成 | 斯坦·李的AI形象可用于生成类似MCU客串的视频内容 |
音乐滤镜 | 两个漫画风格音乐滤镜:"Superhero Cinematic Swells"和"Retro Hero Fanfare" |
读书俱乐部 | Stan Lee Book of the Month Club,一年内将推出12本有声书 |
技术上,ElevenLabs用斯坦·李生前的专业录音素材训练了AI声音模型,力图还原他标志性的语调和充满活力的表达方式。
斯坦·李2018年去世,享年95岁。
现在一家AI公司用他的声音给你读有声书。
社交媒体上的反应是压倒性的负面:
"This poor man has had his entire legacy exploited. Just let him rest." ——这个可怜的人,他的整个遗产都被榨干了。让他安息吧。
X、Reddit、Instagram上,"ghoulish"(恐怖的)、"vile"(卑劣的)、"disgusting"(恶心的)这些词频繁出现。
Futurism的标题更直接:"AI公司挖出斯坦·李的数字尸体,让你用来制造无脑垃圾。"
斯坦·李的案例之所以引发如此强烈的反弹,有三个层面的原因:
第一层:同意权问题
斯坦·李本人无法表达同意或反对。签授权协议的是他的遗产管理方——Stan Lee Universe,一个由POW! Entertainment参与的合资公司。
讽刺的是,2018年斯坦·李去世前几个月,他曾以10亿美元的金额起诉POW! Entertainment,指控该公司CEO未经他知情同意就出售了他的身份、姓名和肖像权。
现在,同一家被斯坦·李起诉过的公司,正在授权AI公司使用他的声音和肖像。
你品,你细品。
第二层:逝者"意愿"的推定
遗产管理方说"斯坦·李会希望他的声音继续陪伴粉丝"。但这是一个不可证伪的声明——你无法问一个已经去世的人他是否同意。
这和法律上的"知情同意"完全是两码事。遗产方有权授权,但有权不等于合理。
第三层:商业化的边界
如果斯坦·李的声音可以商业化,那下一个是谁?乔布斯?邓丽君?张国荣?
当"数字复活"变成一门生意,每一个已故名人的声音和形象都变成了可交易的数字资产。
这不是技术问题,是伦理问题。但目前没有任何法律框架能清晰界定这个边界。
抛开伦理争议,从技术角度看ElevenLabs的能力确实是行业顶级。
ElevenLabs的声音克隆需要的素材量很少——几分钟的高质量录音就足以生成一个逼真的AI声音。对于斯坦·李这样有大量公开演讲、采访、配音素材的名人,AI模型能捕捉到极其细腻的语调特征。
ElevenLabs的核心竞争力一直是人声处理。Music v2之所以在人声质量上领先Suno和Udio,正是因为它有多年积累的语音合成技术。
音乐中的人声本质上就是"有旋律的语音"。 ElevenLabs把语音合成的精度迁移到了音乐人声上,这是一个自然且高效的技术路径。
ElevenLabs声称Music v2仅用授权数据训练。这在技术上意味着:
版权清白是商业优势,但也是技术约束。ElevenLabs在两者之间找到了一个可行的平衡点。
如果你是YouTuber、播客主、短视频创作者——Music v2是一个极好的BGM工具。版权清白+分段编辑+风格切换,意味着你可以为每一期节目定制专属音乐,不用担心被Content ID打击。
Music v2的分段编辑是一个真正有用的创作工具。你可以用它快速生成Demo,测试不同的编曲方向,然后在此基础上用专业工具精细调整。AI不是来抢你饭碗的,是来帮你画草稿的。
对于需要大量音频内容的企业(广告、游戏、App),ElevenLabs的API+版权清白组合是目前最安全的选择。没有哪个品牌愿意在广告配乐上吃版权官司。
ElevenLabs这次的两张牌,精准地照出了AI音频行业的两面:
Music v2代表了技术的光明面——更强的能力、更精细的控制、更清白的版权。它让AI音乐从"一键出歌的玩具"进化成了"可控可编辑的专业工具"。这是正确的方向。
斯坦·李的"复活"照出了技术的阴暗面——当一个去世的人被AI"说出"他生前从未说过的话,当他的遗产管理方(他生前曾起诉的公司)授权这一切发生,我们需要问自己:技术能做到,是否就意味着应该做?
答案显然是否定的。但目前没有任何法律或行业规范能阻止这件事。
AI音频的能力已经跑在了伦理框架的前面。
Music v2告诉我们AI音乐有多好;斯坦·李的案例告诉我们AI声音克隆有多危险。这两件事发生在同一天,来自同一家公司——这不是巧合,这就是2026年AI行业的真实写照。
能力和责任,从来都应该成正比。
Excelsior!——斯坦·李的口头禅。只是这一次,说这句话的不是他自己。
— 完 —