为什么你的横转竖总是"人脸没了"？智能 ROI 跟踪的正确打开方式

原创

gavin1024

发布于 2026-06-01 16:10:00

1420

摘要

横版裁竖版，主角人脸总被裁掉半张、字幕切边、主体跑出画面——不是裁剪工具不够好，是没用对智能ROI跟踪。腾讯云媒体AI横转竖0.28元/分钟把主体识别、跨帧跟踪、构图优化内嵌成一条链路，让竖版始终以主体为中心，而不是机械剪中间。

一、做短视频的人，都受过横转竖的气

打开任何一家在做全平台分发的公司的素材库，都会看到一堆"半截脸"的竖版视频：

新闻主播的额头和下巴被切掉；
采访嘉宾两个人，镜头只剩下中间一道墙；
舞台表演的主角跑出画面，画面正中心是一盆花；
体育直播的球员追着球跑，但裁剪框始终不动，球和人全出画；
产品演示视频里主体摆在左下角，但竖版画面死死锁在中央，主体完全看不见。

这些不是个例，而是"横转竖"这项看起来最简单的处理，在工业化生产中最容易出的事故。

根源其实不难理解：横版（16:9）裁成竖版（9:16），有效信息区从大概 80% 掉到 30% 左右，留给你做决策的只有不到一半画面宽度。靠人工手动 keyframe 去"追"主体，一条 10 分钟视频要调几百个关键帧，根本不现实；靠"固定中心裁剪"，主体在哪就全凭运气。

"横转竖"真正需要的不是裁剪算法，而是视频理解能力——知道每一帧里哪个东西是主体、主体在哪里、怎么合理地重新构图。这就是智能 ROI（Region of Interest）跟踪要解决的问题。

二、横转竖的三种典型翻车

翻车 1：固定中心裁——适合静态画面，不适合动态内容

最原始的横转竖，就是在横版中间抠一个 9:16 的矩形出来，不管内容。对于中心构图的演讲视频、固定机位的访谈，还能凑合用；对于任何有运动、有多主体、有场景切换的内容，完全失败。

翻车 2：跟随人脸但只跟一个——多人画面全糊

有的工具支持人脸跟踪，但只锁定一张脸。对话类内容里，镜头在两个人之间切换或者两人并排，工具只跟一个人，另一个人永远在画面外。

翻车 3：跳变式跟踪——画面抖得想吐

有的工具每帧独立跟踪主体，跟是跟到了，但每帧的裁剪中心都略有跳动，连起来看画面左右乱晃，观众看 30 秒就头晕。

这三个问题分别对应三个技术能力缺口：主体检测的泛化性、多主体语义理解、跨帧运动平滑。横转竖要做好，缺一不可。

三、腾讯云媒体 AI 横转竖的"正确打开方式"

MAIS 的横转竖统一价格 0.28 元/分钟，但它不是一个简单的裁剪工具，而是把"视频理解 + ROI 跟踪 + 构图优化"三件事打包在一起。

能力 1：多模型联合的主体检测

在每一帧里，系统会并行跑多个识别模型——人脸、人体、物体、文本、显著性区域——然后综合判断"这一帧的主体是什么"。

对话场景：检测到两张人脸，会自动收窄视野，尽量把两人一起装进竖版画面；
体育场景：检测到快速运动的人体+球体，优先跟球；
发布会：检测到演讲者+大屏文字，会在演讲者和字幕之间做平衡；
产品演示：检测到显著物体（产品），主体锁定物体而不是人。

能力 2：跨帧时序一致性

每一帧的裁剪中心不是独立计算的，而是基于前后若干帧做运动平滑。这样做的好处是：

主体短时间被遮挡（从人脸前挡一下），画面不会突然跳到别处；
多主体来回切换镜头时，裁剪中心有平滑过渡而不是瞬移；
运动画面（摇臂、手持、轨道）本身的运动被保留，但跟踪抖动被消除。

能力 3：场景分镜识别

镜头切换点会被主动识别出来。每次场景切换时，ROI 跟踪都是"重新开始"，不会因为上一个镜头的主体位置影响到新镜头的构图。

能力 4：字幕/Logo 安全区

竖版画面顶部和底部通常要留给字幕、标题、角标。系统会把这些 UI 元素的位置考虑进去，避免主体被字幕盖住或者字幕把主体的头切掉。

四、把横转竖放到整条链路里看

0.28 元/分钟的单价，放在整条短视频生产链路里才能发挥最大价值。一个典型的"长转短 + 横转竖"的流水线是这样的：

Step 1：长视频拆条（0.04 / 0.28 元/分钟）

一条 1 小时的长视频或直播回放，先用智能拆条按话题、按情节拆成 3-5 分钟的主题片段。

Step 2：精彩集锦筛选（1.78 元/分钟大模型版 / 0.28 元/分钟高级版）

在拆出来的主题片段里再挑精彩瞬间，大模型版会基于语义判断（"这里情绪最高"、"这里观点最完整"），高级版基于画面特征（动作幅度、人脸出现）。

Step 3：横转竖（0.28 元/分钟）

把筛出来的片段批量做横转竖。这一步的 ROI 跟踪质量直接决定竖版能不能用。

Step 4：字幕识别 + 字幕压制（ASR 0.03 元/分钟 + 字幕压制 0.063 元/分钟）

把关键对白或解说压在画面安全区内。

Step 5：AI 配音补充解说（可选，基于音色 ID 0.5 元/分钟 / 高情感克隆 9 元/分钟）

对于需要二创解说的内容，加上 AI 解说二创（3 元/分钟）这一步，做出"评论+原片"的竖版新内容。

Step 6：多语种翻译（可选，大模型翻译 0.20 元/分钟）

短视频全球化分发，直接在这一步输出多语种字幕。

Step 7：智能审核（0.08 元/分钟）

合规兜底。

整条链路的总成本，以 10 分钟可用竖版成片为例：

长视频来源假设 60 分钟
拆条 0.28 × 60 = 16.8 元（大模型版）
精彩集锦 1.78 × 10 = 17.8 元
横转竖 0.28 × 10 = 2.8 元
字幕 + 压制 (0.03 + 0.063) × 10 ≈ 1 元
合计约 38.4 元，产出 10 分钟级可直接发布的竖版内容

对比传统"剪辑师手工剪竖版"的单日产能（熟手一天 3-5 条 3 分钟的剪辑），这条链路的产能提升是数量级的。

五、不同业务场景的横转竖策略

场景 1：体育直播切片

主体运动快、多人穿插、背景复杂。

建议：

优先用横转竖自动跟踪；
对关键高光片段（进球、扣篮、获胜瞬间）可以人工再做一次构图微调；
配合精彩集锦大模型版自动挑出最值得切的片段。

场景 2：访谈 / 对话内容

两个人对话的常见痛点就是横转竖把两个人都切掉。

建议：

系统会自动识别双人场景，收紧视野把两人都装进去；
预算充足可以做"双画面切换"——大模型版精彩集锦可以识别说话人切换，裁剪随之切换到正在发言的人；
重要的访谈内容，建议把字幕做大做全（字幕压制 0.063 元/分钟），作为信息补充。

场景 3：舞台演出 / 发布会

主体是讲话人+大屏，两者要同时出现。

建议：

横转竖 + 字幕压制，把大屏内容用字幕形式补在竖版画面下方；
对于关键产品发布瞬间，可以用"画中画"方式重构画面（主讲人+产品特写），这类高规格内容值得加大模型版精彩集锦的 1.78 元/分钟。

场景 4：教学 / 知识课程

主体是讲师+课件/白板。

建议：

识别课件区域作为"第二 ROI"，不要切掉；
整条课程一次性走 ASR + 字幕压制，把讲师原话同步压在画面下方；
多语种版走大模型翻译 0.20 元/分钟 + 基于音色 ID 配音 0.5 元/分钟。

场景 5：产品广告 / 品牌视频

主体是产品，背景是演员或场景。

建议：

横转竖把产品放中心，演员和场景适当牺牲；
如果原片里有品牌 Logo 在两侧，可能被裁掉，建议在横转竖后用 AIGC 扩画面高级版（40 元/分钟）或重新加 Logo 层。

六、常见误区

误区 1：用横转竖替代重新剪辑

横转竖是快速批量产出的工具，不是替代精剪的方案。品牌主片和高预算广告还是要专业剪辑师做一遍。

误区 2：所有素材都用同一套参数

不同内容类型需要不同策略（主体优先 vs 字幕优先 vs 构图优先），至少分"对话类 / 动作类 / 静态讲解类"三套参数。

误区 3：忽略字幕安全区

竖版画面上下要留给平台 UI（用户头像、点赞按钮、文案区），不要让主体顶到极限位置。

误区 4：不做后处理

横转竖后可能需要轻微的画面补亮、色调统一、音量标准化，这些步骤别省。

七、评估效果的 3 个指标

判断横转竖做得好不好，不要只看"主体在不在画面里"，建议用这 3 个指标：

主体命中率：抽 100 帧人眼判断，主体在画面中心 ±15% 范围内的帧数占比。90% 以上为合格；
画面稳定性：连续观看 30 秒，是否有可见的跟踪抖动或跳变。零跳变为合格；
可发布率：直接交付可上线使用的片段占比。80% 以上可发布为合格。

跑几批 0.28 元/分钟的横转竖，再和之前的人工剪辑/固定中心裁对比这三个指标，数据会直接告诉你值不值得切换。

八、横转竖只是起点，不是终点

真正高产的短视频团队，不会把横转竖当作一个孤立动作，而是把它放在"从长到短、从横到竖、从中到多语、从单一到矩阵"的整体链路里。

在 MAIS 里，这条链路的每一环都是按分钟/条计价的标准化服务：

拆条 0.04 / 0.28 元/分钟
精彩集锦 0.28 / 1.78 元/分钟
横转竖 0.28 元/分钟
字幕压制 0.063 元/分钟
大模型翻译 0.20 元/分钟
AI 配音 0.5 / 9 元/分钟
AI 解说二创 3 元/分钟
智能审核 0.08 元/分钟

串起来之后，一个 3 人小团队的日产能可以从十几条涨到上百条，这才是横转竖背后真正值得抓的红利。

"人脸没了"、"主体跑了"、"画面抖了"——这些横转竖的典型事故，都指向同一个根因：缺乏视频理解能力驱动的智能 ROI 跟踪。0.28 元/分钟的横转竖服务把这一层能力标准化，你要做的只是把它接进自己的内容生产链路。完整能力和接入方式请看产品页：https://www.tencentcloud.com/products/mais

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

模型