ElevenLabs同日放两个炸弹：AI音乐换挡超车，已故斯坦·李被'数字复活'

老周聊架构

发布于 2026-06-08 12:37:19

5月27日，ElevenLabs同一天打出两张牌：Music v2——一个能在歌曲中途切换音乐风格的AI音乐模型；斯坦·李AI声音——用声音克隆技术"复活"已故漫威之父。前者是技术突破，后者是伦理炸弹。两件事放在一起，刚好勾勒出AI音频行业的全貌：能力越来越强，边界越来越模糊。

ElevenLabs这家公司很有意思。

它是目前AI语音赛道估值最高的公司——110亿美元。它不做大模型，不做聊天机器人，专注一件事：声音。语音合成、声音克隆、有声书、配音、现在又加上了音乐。

这次同日放出两个产品，一个让你兴奋，一个让你不安。

用人话说：ElevenLabs左手递给你一把削铁如泥的刀，右手用这把刀切开了一个潘多拉魔盒。

一、Music v2：一首歌里从歌剧切到重金属

先说让人兴奋的那个。

1.1 核心能力：中途换风格

Music v2最大的突破是Mid-Track Genre Switching——同一首歌曲中途切换音乐风格。

什么意思？你的歌可以从歌剧开始，切到重金属间奏，再回到交响乐结尾——整个过程人声不断、节奏连贯、不会翻车。

这在以前是不可能的。Suno和Udio生成的歌曲，风格从头到尾是统一的。你要么生成一首摇滚，要么生成一首爵士，你不能在一首歌里同时要两种。

Music v2打破了这个限制。

用人话说：以前AI作曲像点外卖——你只能选一个菜系；现在像自助餐——一个盘子里可以装寿司、牛排和火锅。

1.2 分段编辑：像搭积木一样做歌

第二个重要功能是Section Editing（分段编辑）。

传统AI音乐生成	Music v2
一句Prompt→一整首歌	分段构建：前奏→主歌→副歌→桥段→结尾
不满意？重新生成整首	只重新生成不满意的那一段
无法精细控制	每段可独立调整歌词、风格、时长

这意味着Music v2的工作流从"一次性赌博"变成了"迭代式创作"。你可以先生成一个副歌，满意了再生成主歌，不满意的段落单独重来，其他部分不受影响。

这对于专业音乐人来说太重要了——没有哪个音乐人会接受"要么全要，要么全不要"的创作方式。

1.3 其他亮点

快速说唱不翻车：人声在高速说唱时仍能保持歌词清晰度和节奏感
多语言歌词：支持多语言混唱，同一首歌里可以切中英日韩
非音乐音效嵌入：可以在音轨中直接嵌入环境音、音效，不需要后期合成
降价50%：API价格直降一半，自助用户降价40%

二、三国杀：Music v2 vs Suno v5 vs Udio

2026年AI音乐赛道已经形成了三足鼎立的格局。

维度	ElevenLabs Music v2	Suno v5	Udio
核心优势	人声质量最佳、版权清白	整曲质量最高、生态最成熟	Inpainting精细编辑
音频质量	最佳人声	44.1kHz	48kHz
风格切换	支持中途切换	不支持	不支持
分段编辑	支持	有限	支持（Inpainting）
版权状态	仅用授权数据训练	2025年与唱片公司和解	2025年与唱片公司和解
估值/收入	$110亿估值	亿估值、24.5亿估值、3亿ARR	未公开
付费用户	未公开	~200万	未公开
API	即将推出	可用	可用
适用场景	商业项目、专业配音	快速出歌、内容创作	精细编辑、后期制作

三家的定位差异很明显：

Suno是"AI音乐的ChatGPT"——一句话出一首完整的歌，速度快、质量高、生态大
Udio是"AI音乐的Photoshop"——Inpainting让你能精细修改歌曲的任何部分
ElevenLabs是"AI音乐的Final Cut Pro"——分段编辑+风格切换+顶级人声，面向专业用户

但ElevenLabs有一张王牌：版权。

Suno和Udio都曾被美国唱片工业协会（RIAA）起诉，2025年底才与主要唱片公司达成和解。这意味着它们的训练数据中包含了大量受版权保护的音乐。

ElevenLabs从一开始就只用授权数据训练。这在商业场景中是巨大的优势——你的客户不想用一个有版权风险的工具。

三、斯坦·李"复活"：伦理的潘多拉魔盒

现在说让人不安的那个。

3.1 发生了什么

ElevenLabs与Stan Lee Universe签署授权协议，获得了斯坦·李的声音和肖像使用权。

具体包括：

项目	内容
有声书朗读	AI斯坦·李在Eleven Reader App中朗读经典书籍，首本是《金银岛》
声音市场	斯坦·李的AI声音上架Iconic Voice Marketplace，用户可申请使用
肖像生成	斯坦·李的AI形象可用于生成类似MCU客串的视频内容
音乐滤镜	两个漫画风格音乐滤镜："Superhero Cinematic Swells"和"Retro Hero Fanfare"
读书俱乐部	Stan Lee Book of the Month Club，一年内将推出12本有声书

技术上，ElevenLabs用斯坦·李生前的专业录音素材训练了AI声音模型，力图还原他标志性的语调和充满活力的表达方式。

3.2 互联网炸了

斯坦·李2018年去世，享年95岁。

现在一家AI公司用他的声音给你读有声书。

社交媒体上的反应是压倒性的负面：

"This poor man has had his entire legacy exploited. Just let him rest." ——这个可怜的人，他的整个遗产都被榨干了。让他安息吧。

X、Reddit、Instagram上，"ghoulish"（恐怖的）、"vile"（卑劣的）、"disgusting"（恶心的）这些词频繁出现。

Futurism的标题更直接："AI公司挖出斯坦·李的数字尸体，让你用来制造无脑垃圾。"

3.3 问题出在哪？

斯坦·李的案例之所以引发如此强烈的反弹，有三个层面的原因：

第一层：同意权问题

斯坦·李本人无法表达同意或反对。签授权协议的是他的遗产管理方——Stan Lee Universe，一个由POW! Entertainment参与的合资公司。

讽刺的是，2018年斯坦·李去世前几个月，他曾以10亿美元的金额起诉POW! Entertainment，指控该公司CEO未经他知情同意就出售了他的身份、姓名和肖像权。

现在，同一家被斯坦·李起诉过的公司，正在授权AI公司使用他的声音和肖像。

你品，你细品。

第二层：逝者"意愿"的推定

遗产管理方说"斯坦·李会希望他的声音继续陪伴粉丝"。但这是一个不可证伪的声明——你无法问一个已经去世的人他是否同意。

这和法律上的"知情同意"完全是两码事。遗产方有权授权，但有权不等于合理。

第三层：商业化的边界

如果斯坦·李的声音可以商业化，那下一个是谁？乔布斯？邓丽君？张国荣？

当"数字复活"变成一门生意，每一个已故名人的声音和形象都变成了可交易的数字资产。

这不是技术问题，是伦理问题。但目前没有任何法律框架能清晰界定这个边界。

四、技术视角：ElevenLabs为什么能做到？

抛开伦理争议，从技术角度看ElevenLabs的能力确实是行业顶级。

4.1 声音克隆技术

ElevenLabs的声音克隆需要的素材量很少——几分钟的高质量录音就足以生成一个逼真的AI声音。对于斯坦·李这样有大量公开演讲、采访、配音素材的名人，AI模型能捕捉到极其细腻的语调特征。

4.2 从语音到音乐的技术迁移

ElevenLabs的核心竞争力一直是人声处理。Music v2之所以在人声质量上领先Suno和Udio，正是因为它有多年积累的语音合成技术。

音乐中的人声本质上就是"有旋律的语音"。 ElevenLabs把语音合成的精度迁移到了音乐人声上，这是一个自然且高效的技术路径。

4.3 版权壁垒的技术实现

ElevenLabs声称Music v2仅用授权数据训练。这在技术上意味着：

训练数据量可能远小于Suno和Udio（后者被指控使用了大量受版权保护的音乐）
但模型架构和训练方法必须更高效，才能在更少数据上达到相当的质量
这也解释了为什么Music v2在整曲质量上仍然不如Suno——数据量的差距是客观存在的

版权清白是商业优势，但也是技术约束。ElevenLabs在两者之间找到了一个可行的平衡点。

五、对创作者意味着什么？

5.1 内容创作者

如果你是YouTuber、播客主、短视频创作者——Music v2是一个极好的BGM工具。版权清白+分段编辑+风格切换，意味着你可以为每一期节目定制专属音乐，不用担心被Content ID打击。

5.2 独立音乐人

Music v2的分段编辑是一个真正有用的创作工具。你可以用它快速生成Demo，测试不同的编曲方向，然后在此基础上用专业工具精细调整。AI不是来抢你饭碗的，是来帮你画草稿的。

5.3 企业用户

对于需要大量音频内容的企业（广告、游戏、App），ElevenLabs的API+版权清白组合是目前最安全的选择。没有哪个品牌愿意在广告配乐上吃版权官司。

写在最后

ElevenLabs这次的两张牌，精准地照出了AI音频行业的两面：

Music v2代表了技术的光明面——更强的能力、更精细的控制、更清白的版权。它让AI音乐从"一键出歌的玩具"进化成了"可控可编辑的专业工具"。这是正确的方向。

斯坦·李的"复活"照出了技术的阴暗面——当一个去世的人被AI"说出"他生前从未说过的话，当他的遗产管理方（他生前曾起诉的公司）授权这一切发生，我们需要问自己：技术能做到，是否就意味着应该做？

答案显然是否定的。但目前没有任何法律或行业规范能阻止这件事。

AI音频的能力已经跑在了伦理框架的前面。

Music v2告诉我们AI音乐有多好；斯坦·李的案例告诉我们AI声音克隆有多危险。这两件事发生在同一天，来自同一家公司——这不是巧合，这就是2026年AI行业的真实写照。

能力和责任，从来都应该成正比。

Excelsior!——斯坦·李的口头禅。只是这一次，说这句话的不是他自己。

— 完 —

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-05，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自老周聊架构微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度