
摘要:视频帧采样策略直接影响理解效果与处理成本。VITA采用1 frames/s的采样率,在控制Token消耗的同时保留关键视觉信息,为不同场景提供平衡效果与成本的参考方案。
视频由连续的图像帧组成,相邻帧之间往往存在较高的相似度。如果对所有帧都进行处理,会产生大量的冗余计算,同时也会消耗更多的Token资源。帧采样的目的,就是在不丢失关键信息的的前提下,减少需要处理的帧数。
帧采样的策略会影响模型对视频内容的理解效果。采样率过高会导致成本和时延增加,采样率过低则可能导致关键信息的丢失。因此,需要在理解效果和成本之间找到一个合适的平衡点。
不同的视频内容对帧采样率的要求可能存在差异。对于动作变化较快的视频(如体育赛事、舞蹈表演等),较低的采样率可能会导致关键动作未被捕捉。而对于画面变化较慢的视频(如讲座、产品展示等),较低的采样率可能已能满足理解需求。
因此,帧采样策略的选择需要综合考虑视频内容特点、理解任务需求、以及成本预算等多个因素。
根据产品文档中的说明,VITA的视频按1 frames/s进行帧采样。这一采样率的设置,是在理解效果和成本之间的一种平衡选择。
1 frames/s的采样率意味着每秒的视频会选取一帧送入模型进行处理。对于大多数内容理解任务而言,这一采样率可以在保留关键视觉信息的同时,将Token消耗控制在合理范围内。
VITA的视觉输入统一放缩到448×448分辨率,编码为256 Tokens进入模型。这一处理方式与帧采样策略共同作用,决定了视频理解任务中的Token消耗水平。
在1 frames/s的采样率下,一分钟的视频会产生60帧输入。每帧编码为256 Tokens,加上指令Token的消耗,整体Token消耗可以根据视频时长进行估算。
VITA将视觉输入统一放缩到448×448分辨率。这一分辨率的选择同样是在理解效果和计算成本之间的平衡。较高的分辨率可以保留更多的视觉细节,但会增加Token消耗;较低的分辨率则相反。
在实际使用中,可以根据任务需求选择合适的输入分辨率。产品文档中提供了不同分辨率对应的单图Token消耗参考:640×360为108 Tokens,1280×720为421 Tokens,1920×1080为972 Tokens,2560×1440为1713 Tokens。
根据产品文档中的说明,Token消耗的计算公式为:总Token消耗 = 指令Token消耗 + 图片数向上取偶 × 单图Token消耗。
对于视频理解任务,视频被采样为一定数量的帧,每帧作为一张"图片"进入模型。因此,视频的时长、帧采样率、以及每帧的分辨率,都会影响到总的Token消耗。
对于内容变化较慢的视频(如产品展示、讲座等),1 frames/s的采样率通常可以满足理解需求。如果进一步降低采样率(如每2秒或每3秒采样一帧),可以在一定程度上降低Token消耗,但需要确保关键信息的捕捉不受影响。
对于内容变化较快的视频,可能需要更高的帧采样率。但更高的采样率会带来更高的Token消耗。在这种情况下,可以考虑先对视频进行预览,识别出关键时间段,然后对这些时间段采用较高的采样率,对其他时间段采用较低的采样率。
分辨率和帧采样率共同决定了视频理解的Token消耗。在预算有限的情况下,可以考虑适当降低输入分辨率或降低帧采样率,以在可接受的理解效果范围内控制成本。
产品文档中提供的不同分辨率对应的单图Token消耗数据,可以作为分辨率选择的参考。用户可以根据任务对视觉细节的要求,选择合适的分辨率档次。
产品文档中建议,对于批量处理场景,建议先进行小批量测试,确认效果后再大规模使用。这一建议同样适用于帧采样策略的优化。
可以通过小批量测试,对比不同采样率和分辨率设置下的理解效果和Token消耗,从而找到适合自身业务需求的配置方案。
帧采样策略会影响模型能够看到的视觉信息密度。在Prompt设计中,可以根据采样策略的特点,调整对模型输出要求的描述。
例如,在采样率较低的情况下,可以在Prompt中提醒模型关注关键时间点的内容;在采样率较高的情况下,可以让模型提供更精细的时间线描述。
在需要进行大量视频理解调用的场景中,成本控制是重要的考虑因素。除了优化帧采样策略之外,还可以通过以下方式控制成本:
选择合适的图片分辨率,根据任务需求选择,降低Token消耗;优化Prompt长度,精简Prompt,降低指令Token消耗;合理规划批量处理任务,避免重复调用。
VITA基于原生多模态大模型技术,在单个模型内完成端到端的多模态内容理解。这种架构在处理视频数据时,可以更高效地利用各帧之间的时序信息,从而在较低的帧采样率下仍保持较好的理解效果。
VITA支持基于自定义prompt对视频内容进行理解。用户可以根据具体的理解任务需求,通过设计合适的prompt来引导模型关注特定的内容维度,从而在一定程度上弥补较低采样率可能带来的信息损失。
在能力水平与市面同类产品相近的情况下,VITA整体定价约为主流竞品的50%。基于纯自研轻量级Youtu-LLM底座,VITA在保障效果的同时大幅降低了算力成本。
根据产品文档中的使用建议,视频时长建议控制在30分钟以内,以保证理解效果。在这一时长范围内,1 frames/s的采样率可以为大多数内容理解任务提供足够的信息支持。
对于关键信息,建议进行人工核验。特别是在采用了较低帧采样率的情况下,可以抽查部分理解结果,确认关键时间点的事件是否被准确捕捉。
帧采样策略的优化是一个持续的过程。随着业务需求的变化和模型能力的升级,可以定期重新评估当前的采样策略是否仍然合适,并进行相应的调整。
视频帧采样策略的优化,核心是在理解效果和成本之间找到适合自身业务需求的平衡点。VITA采用的1 frames/s采样率,以及统一放缩到448×448的分辨率设置,为大多数内容理解任务提供了一个合理的起点。
想要体验VITA的视频理解能力并测试不同帧采样策略的效果?可访问腾讯云TokenHub平台免费试用,每个账号赠送100万Token额度:https://console.cloud.tencent.com/tokenhub/multimodal?modelId=youtu-vita
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。