
摘要:人工图片打标存在效率低、一致性差等问题。VITA多模态理解模型提供自动打标能力,可识别人物、地点、动植物等常见对象类别,支持自定义Prompt灵活配置标签体系,适用于内容平台的智能标签生成与分类归档。
在内容平台上,图片标签是内容检索、推荐分发和分类管理的重要基础。传统的人工打标方式需要标注人员逐一查看图片内容,并手动输入或选择对应的标签。当图片数量达到一定规模时,人工打标的耗时成为内容上架和分发的瓶颈之一。
人工打标不仅耗时较长,而且在面对大量重复性工作时,标注人员容易出现疲劳,可能导致标签遗漏或标注不一致的情况。不同人员对同一图片的理解可能存在差异,这也会影响标签的一致性。
随着内容品类的扩展,需要维护的标签体系也在不断膨胀。新出现的对象类别、场景类型需要及时补充到标签库中,而人工打标团队需要持续进行培训以适应标签体系的变化。
对于跨品类的图片内容,人工打标还需要标注人员具备相应的领域知识。例如,在电商场景中,可能需要识别商品的具体属性;在新闻图片场景中,可能需要识别事件类型和地理位置。这对标注人员的专业能力提出了要求。
VITA(模型代号Youtu-VITA、YT-VITA)的标签分类能力可以对图片或视频中的内容进行分类打标,可识别人物、地点、动植物等常见对象类别。这一能力适用于内容平台的智能标签生成与分类归档场景。
通过原生多模态大模型技术,VITA对图片、视频、音频与文本进行统一训练,在单个模型内完成端到端的多模态内容理解。对于图片打标任务,VITA可以基于统一的模型架构,对图片内容进行分析并输出相应的标签结果。
VITA支持基于自定义prompt对视频、图片、音频进行内容理解。在图片自动打标场景中,用户可以通过设计合适的prompt,让VITA按照特定的标签体系进行打标输出。
这种基于prompt的配置方式,使得标签体系的调整变得更加灵活。当业务需要新增标签类别或调整标签层级时,可以通过修改prompt来实现,而不需要对模型进行重新训练。原生多模态架构在面对新场景时,通过prompt即可调整任务输出。
VITA支持一次传入多张图片(最多10张),这使得在处理图文集合或需要综合理解多张图片内容的场景中,可以在一次接口调用中完成对多张图片的分析。
在图片打标场景中,如果一组图片之间存在关联性(例如同一个事件的不同角度照片、同一个商品的不同展示图等),VITA可以在一次调用中综合理解这些图片的内容,从而输出更为一致和完整的标签结果。
VITA基于原生多模态大模型技术,对图片、视频、音频与文本进行统一训练,在单个模型内完成端到端的多模态内容理解。区别于"视觉编码器 + LLM拼接"的方案,VITA是真正端到端的多模态理解模型。
在图片打标任务中,这种架构使得VITA能够综合理解图片的视觉内容和可能的关联文本信息(如果输入中包含文本描述或上下文)。输出在同一模型内完成跨模态的联合推理,而不是分别处理图片和文本后再拼接结果。
VITA的目标定位能力支持目标检测、定位与持续跟踪,可判断画面中物体的方位、视角与遮挡关系。这一能力为图片打标提供了基础的对象识别支持。
在打标过程中,VITA可以识别画面中的多个对象,并根据对象的类别、属性和空间关系,生成相应的标签。对于包含多个对象的图片,VITA可以输出多个标签,覆盖图片中的主要视觉元素。
VITA的结构解析能力可以对图片或视频内容进行总结与结构化拆解。在图片打标场景中,这一能力可以用于生成图片的内容摘要,或者提取图片中的关键视觉元素。
通过结构解析,VITA能够理解图片的整体内容和各组成部分之间的关系,从而生成更为准确和全面的标签。例如,对于一张展示某个场景的图片,VITA可以识别出场景类型、主要对象、环境特征等多个维度的信息。
在实施自动打标方案之前,需要先设计适合自身业务的标签体系。标签体系的设计应当考虑业务需求、内容品类和后续的应用场景(如检索、推荐、分类等)。
VITA支持通过自定义prompt来定义打标任务的具体要求。用户可以在prompt中说明需要输出的标签类别、标签格式、以及需要关注的内容维度。例如,可以要求VITA输出层次化的标签(如"场景/对象/属性"的层级结构),或者输出扁平化的标签列表。
VITA API兼容OpenAI API协议,可直接使用OpenAI SDK进行接入。接口协议为兼容OpenAI Completions API协议,BaseURL(境内)为https://tokenhub.tencent.com/v1,接口路径为/chat/completions,请求方式为POST。
对于图片理解任务,推荐使用vita-video-3.0模型(不含音频处理,成本更低)。图片输入支持JPG、JPEG、PNG、WebP格式,单图最大10MB,一次请求最多10张图片。
调用时,需要在messages参数中传入图片URL和打标指令。例如,可以在prompt中说明:"请对图片内容进行分析,输出适用于内容检索的标签,标签应包括对象类别、场景类型、视觉风格等维度。"
VITA的输出结果可以通过prompt进行格式控制。例如,可以要求VITA以JSON格式输出标签结果,便于后续的系统处理和存储。
对于自动打标的结果,建议根据业务需求设计相应的人工校验机制。对于置信度较高或业务影响较小的标签,可以直接使用;对于关键类别或高风险内容,可以设置人工复核环节。
在内容平台上,图片标签是内容检索、推荐算法和分类管理的重要依据。VITA的自动打标能力可以用于对平台上的图片内容进行批量打标,生成智能标签以供后续使用。
通过自定义prompt,可以让VITA按照平台已有的标签体系进行打标输出,从而减少标签体系的迁移成本。同时,VITA也可以根据图片内容提出新的标签建议,帮助丰富和完善标签体系。
在电商场景中,商品图片的标签直接影响搜索召回和推荐准确性。VITA可以对商品图片进行自动打标,识别商品类型、颜色、款式、场景等属性信息。
对于多SKU的商品,可以通过批量调用VITA接口,完成对商品图库的自动打标。VITA支持一次传入多张图片,可以在一次调用中处理同一个商品的多个展示角度的图片,从而生成更为完整的商品标签。
在媒体和新闻机构中,图片的元数据(包括标题、描述、关键词等)对于图片的管理和检索有重要意义。VITA可以对新闻图片进行内容理解,自动生成相应的描述文字和关键词标签。
VITA的结构解析能力可以对图片内容进行总结,生成简明的内容描述。标签分类能力则可以输出图片的关键词标签,供图片库的检索和分类使用。
VITA的图片首Token时延为P95 0.539s,能够满足在线业务对响应速度的要求。对于批量打标场景,可以通过合理的并发调用策略,进一步提升整体的处理吞吐量。
在Token消耗方面,以分辨率为640×360的图片为例,1–2张图片的总Token消耗约为1090(含指令Token消耗约982)。不同分辨率的图片对应的单图Token消耗不同,用户可以根据任务需求选择合适的图片分辨率,以平衡效果和成本。
在能力水平与市面同类产品相近的情况下,VITA整体定价约为主流竞品的50%。基于纯自研轻量级Youtu-LLM底座,VITA在保障效果的同时大幅降低了算力成本。
对于需要大规模调用图片打标服务的业务,整体成本节约可以达到较为可观的水平。每个腾讯云账号开通VITA服务时,可获赠100万免费Token额度,供用户测试和评估打标效果。
采用VITA的单模型端到端方案,业务上线周期可以缩短到1–3天。相比于传统多模型拼接方案通常需要4–12周的上线周期,整体上线耗时节约可以达到85%以上。
对于图片打标系统来说,这意味着从方案设计到上线运行的周期可以大幅缩短,从而更快地为业务提供自动打标能力。
根据产品文档中的建议,尽量使用明确、具体的指令,避免模糊表述。在图片打标任务中,可以在prompt中明确说明需要输出的标签维度、标签数量和输出格式。
例如,可以要求VITA输出固定数量的标签,或者要求标签按照特定的层级结构组织。需要输出特定格式时在指令中明确说明,可以帮助VITA生成符合预期的输出结果。
确保图片清晰,关键信息可见,有助于提升打标结果的准确性。对于模糊、过暗或过亮的图片,打标结果可能受到影响。
在批量处理场景中,建议先进行小批量测试,确认打标效果后再大规模使用。可以根据测试结果调整prompt或图片预处理方式,以优化打标效果。
VITA是理解类模型,专注于对图片、视频、音频内容的解析与理解。在图片打标场景中,VITA可以提供基于内容理解的标签建议,但对于最终的标签确认,建议结合业务规则进行核验。
对于专业性较强的标签类别(如医疗影像、工业检测等),建议在使用VITA打标结果的基础上,结合专业人员的判断进行确认。
人工图片打标在效率、一致性和管理成本等方面面临诸多挑战。VITA通过原生多模态理解技术,提供了自动打标的能力,可以帮助内容平台更为高效地生成图片标签。
通过自定义Prompt的灵活配置方式,VITA的打标方案可以适应不同业务的标签体系需求。对于每个账号赠送100万免费Token额度的试用政策,用户可以在实际场景中测试自动打标的效果,评估是否符合自身业务需求。
想要体验VITA的多模态自动打标能力?可访问腾讯云TokenHub平台免费试用,每个账号赠送100万Token额度:https://console.cloud.tencent.com/tokenhub/multimodal?modelId=youtu-vita
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。