首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >湾大北交大开源 CutClaw,自动踩点音乐的 AI 智能视频剪辑师!

湾大北交大开源 CutClaw,自动踩点音乐的 AI 智能视频剪辑师!

作者头像
开源星探
发布2026-04-10 08:34:55
发布2026-04-10 08:34:55
2500
举报
文章被收录于专栏:翩翩白衣少年翩翩白衣少年

做视频剪辑的人都懂,从几小时的素材里剪出一段踩点精准、叙事流畅的短视频有多折磨人。

特别是对于旅拍博主和Vlogger来说,拍了一天5-6小时的素材,回来还要花好几个小时慢慢剪,真正的创作热情都被这种机械劳动消磨掉了。

更别说搞营销的,要批量生成不同风格的宣传片,工作量更是大到离谱。

传统的剪辑要么是自己手动拉时间轴、调节奏,要么是用模板工具,但模板往往不够灵活,很难做到真正的音画合一。

而且很多AI剪辑工具都是先剪好视频再配BGM,根本做不到音乐驱动的剪辑决策,节奏总是差那么点意思。

最近看到大湾区大学GVC实验室和北京交通大学团队开源的 CutClaw,彻底解决了这个痛点。

这玩意儿不是简单的AI剪辑,而是一个模拟专业后期流程的多智能体系统,能把几小时的长视频和一段音乐丢进去,给一句文字指令,它就能自动剪出一部叙事性、节奏感、视觉都在线的电影感短片。

项目简介

简单说,CutClaw 是一个端到端的长视频+音乐剪辑系统。

它先把原始的视频和音频拆解成结构化的字幕,然后用多智能体流水线来规划镜头、选择片段时间戳、验证最终质量,最后渲染出成片。

核心亮点

1、音乐驱动剪辑,而不是后配BGM

这是 CutClaw 最核心的亮点。

绝大多数AI剪辑工具都是先剪好视频再配音乐,或者只是简单地把剪辑点和音乐节拍对齐,但CutClaw是真正的音乐驱动剪辑决策。

它会先分析音乐的节拍、重拍、音高、能量曲线,把音乐拆解成主歌、副歌这样的结构单元,然后让视觉叙事严格对应到这个听觉骨架上。

每个音乐段落分配什么样的场景,每个剪辑点落在哪一拍,都是由音乐决定的。

2、一句话指令,AI自动理解风格

你不需要手动拉时间轴,不需要一个个选片段,只需要给一句文字指令,CutClaw就能自动理解并执行。

这种指令控制不是简单的关键词匹配,而是通过多智能体系统来理解你的意图,然后转化成具体的剪辑决策。

3、智能自动裁剪,适配各社交平台

现在的视频要发抖音、小红书、视频号,每个平台的比例都不一样。CutClaw有内容感知裁剪功能,能自动识别画面中的核心主体,然后调整画面比例,适配各种社交平台。

4、一键解构,素材变成可搜索的资产

第一次处理视频时,CutClaw会进行素材解构,把几小时的长视频拆分成镜头、场景,给每个镜头生成语义描述,包括摄影手法、人物动态、环境等等。

音频方面也会提取节拍、音高、能量,生成结构化的音频标注。

这个解构过程虽然第一次慢一点,但后面再用同样的素材剪辑时,就可以直接复用缓存结果,速度会快很多。而且这些结构化的素材也变成了可搜索的资产,你以后想找某个场景也很方便。

快速上手

首先克隆仓库,创建环境:

代码语言:javascript
复制
git clone https://github.com/GVCLab/CutClaw.git
cd CutClaw
conda create -n CutClaw python=3.12
conda activate CutClaw
pip install -r requirements.txt

官方强烈推荐使用GPU加速的Decord/NVDEC构建,可以大幅提升视频解码速度。

然后把你的素材放到对应的目录:

代码语言:javascript
复制
resource/
├── video/      # 放你的 .mp4 / .mkv 视频
├── audio/      # 放你的 .mp3 / .wav 音乐
└── subtitle/   # 可选的 .srt 字幕文件,可以跳过ASR,节省时间

运行方式

方式一:Streamlit可视化界面(推荐)

代码语言:javascript
复制
streamlit run app.py

然后在浏览器打开 http://localhost:8501。在界面里直接选择你放好的视频和音频文件,输入指令就可以了。

方式二:CLI命令行(高级用户)

代码语言:javascript
复制
python local_run.py \
  --Video_Path "resource/video/你的视频.mp4" \
  --Audio_Path "resource/audio/你的音乐.mp3" \
  --Instruction "你的剪辑指令"

你还可以覆盖配置参数,比如:

代码语言:javascript
复制
python local_run.py \
  --Video_Path "resource/video/xxxx.mp4" \
  --Audio_Path "resource/audio/xxxx.mp3" \
  --Instruction "xxxx" \
  --config.MAIN_CHARACTER_NAME "主角名字" \
  --config.VIDEO_FPS 2 \
  --config.AUDIO_TOTAL_SHOTS 50

CutClaw支持多种模型,官方推荐:

  • 视频模型:Gemini-3、Qwen3.5、GPT-5.3(用于镜头/场景理解和视觉字幕)
  • 音频模型:Gemini-3(用于ASR和音乐结构解析)
  • 智能体模型:MiniMax-2.7、Kimi-2.5、Claude-4.5(用于驱动编剧+剪辑师+审阅者循环)

它用LiteLLM作为API管理网关,模型名称格式比如 'openai/MiniMax-2.7'。

写在最后

CutClaw 的出现,让视频剪辑从一项需要专业技能和大量时间的工作,变成了普通人也能轻松搞定的事情。

它不是简单的自动化工具,而是真正理解音乐和叙事的AI剪辑师。

如果你是旅拍博主、Vlogger,或者需要经常做视频营销,建议试试这个项目。GitHub地址放在下面了,赶紧去Star一下,有空的时候玩一玩。

GitHub:https://github.com/GVCLab/CutClaw

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源星探 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 项目简介
  • 核心亮点
  • 快速上手
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档