
图片结构化信息提取是将非结构化的图像内容转换为结构化数据的过程。本文介绍图片结构化提取的技术原理、典型应用场景,以及VITA多模态理解模型如何通过结构解析能力,帮助开发者从图片中提取可计算、可分析的结构化信息。
图片是一种典型的非结构化数据。在一张图片中,包含了丰富的视觉信息,这些信息以像素矩阵的形式存储,难以直接被计算机系统理解和处理。
对于内容平台、电商平台、安防系统等需要基于图片内容做出自动化决策的应用来说,直接将非结构化的图像数据作为输入,往往难以实现高效的处理和分析。
将图片内容转换为结构化数据,可以带来多方面的应用价值:
因此,图片结构化信息提取成为连接视觉内容与数据应用的关键环节。
图片结构化信息提取的第一步是设计提取维度。根据业务需求的不同,提取维度可以有多种选择:
对象维度:提取图片中出现的物体、人物、场景等对象信息,包括对象类别、数量、位置等。
属性维度:提取对象的属性信息,如颜色、形状、尺寸、状态等。
关系维度:提取对象之间的空间关系、交互关系等。
文字维度:提取图片中包含的文字内容(如OCR),并将其组织为结构化格式。
语义维度:提取图片的整体语义信息,如场景类型、氛围、主题等。
传统的图片结构化提取往往依赖多个专用模型串联的工作流:先通过目标检测模型识别物体,再通过属性识别模型提取属性,最后将结果拼接为结构化输出。
这种多模型拼接方案存在若干局限:各子模型的能力边界限制了整体上限,动一个环节往往要牵动整套系统的训练与部署,上线周期较长。
VITA基于原生多模态大模型技术,在单个模型内完成端到端的多模态内容理解。对于图片结构化信息提取任务,这意味着可以通过统一的模型架构,完成多维度信息的联合提取。
图片结构化信息提取的输出格式需要根据下游应用的需求进行定制。常见的输出格式包括:
VITA支持通过自定义Prompt来调整输出格式。在指令中明确说明需要的输出格式,模型可以按照指定的格式组织输出内容。
根据产品文档,VITA具备结构解析能力,能够对图片或视频内容进行总结与结构化拆解。这一能力适用于视频结构化、分镜拆解、内容摘要等任务。
在图片理解场景下,结构解析能力可以支持从图片中提取结构化的信息,将非结构化的视觉内容转换为有组织、可计算的结构化数据。
VITA支持基于自定义Prompt对图片内容进行理解。对于结构化信息提取任务,用户可以在Prompt中指定:
这种基于Prompt的任务调整方式,使VITA能够灵活适配不同业务场景的结构化提取需求,而无需针对每个场景重新训练或微调模型。
VITA支持一次传入多张图片(最多10张)。对于需要同时分析多张图片的场景,这一能力可以提供便利。
例如,在电商商品理解场景中,一个商品可能有多个角度的图片。通过多图联合理解,可以对这些图片中的信息进行综合提取和整合,生成该商品的结构化描述。
内容平台需要对海量图片进行标签化处理,以便实现基于标签的内容检索和推荐。
图片结构化信息提取可以自动从图片中提取类别、场景、对象等标签信息,形成结构化的标签数据。这些标签数据可以直接用于内容平台的标签体系。
电商平台上的商品图片包含了丰富的商品信息。通过图片结构化信息提取,可以从商品图片中自动提取商品的外观属性,如颜色、款式、材质外观等。
提取出的结构化属性数据,可以补充商品的属性库,提升商品搜索和推荐的准确度。
在安防监控场景中,监控画面需要被理解为结构化的事件信息,以便进行事件检索和统计分析。
VITA的目标定位能力支持对画面中物体的方位、视角与遮挡关系的判断,这可以支撑监控画面的结构化理解,将非结构化的监控视频转换为结构化的事件记录。
影视制作、广告创作等内容生产机构,往往拥有大量的图片素材库。这些素材需要被有效地管理和检索。
通过图片结构化信息提取,可以为每张素材图片生成结构化的元数据,包括场景类型、物体清单、色彩特征等。这些元数据可以支持基于内容的素材检索,提升素材管理的效率。
图片结构化信息提取的精度直接影响下游应用的效果。因此,在将提取结果投入实际使用之前,建议进行充分的精度核验:
在生产环境中,输出格式的稳定性是重要的工程考量。如果每次调用的输出格式存在差异,会增加下游系统的对接成本。
为提高输出格式的稳定性,可以在Prompt中提供明确的格式示例,并要求模型严格按照示例格式输出。同时,也可以在下游增加格式校验和异常处理逻辑。
对于需要大规模处理图片的场景,处理效率是一个重要考量。VITA通过原生多模态架构,在保障理解效果的同时实现了工程效率的提升。
根据产品文档,VITA方案相比传统多模型拼接方案,可以将业务上线周期从4-12周缩短到1-3天,整体上线耗时节约85%以上。
图片结构化信息提取的技术,可以自然地延伸到视频场景。视频可以被视为一系列连续图片的组合,因此图片结构化的很多技术思路也适用于视频。
VITA支持对视频内容的理解,能够完成视频结构化、分镜拆解、内容摘要等任务。在视频结构化场景中,模型需要处理的不仅是单帧画面的信息,还包括帧与帧之间的时间关系和内容变化。
在视频结构化任务中,时间戳的提取是一个重要环节。通过精准的时间戳提取,可以将视频内容定位到具体的时段,支持基于时间的内容检索和片段提取。
根据产品文档,VITA的结构解析能力支持视频时间戳的精准提取。这为视频内容的结构化处理提供了重要支持。
在实际的内容理解任务中,往往需要同时处理图片、视频、音频等多种模态的内容。例如,一个短视频同时包含画面和音频,需要对其进行综合的结构化理解。
VITA支持音视图文全模态统一理解,能够在统一模型中完成对多种模态内容的结构化信息提取。这为多模态内容的结构化处理提供了技术基础。
图片结构化信息提取是连接非结构化视觉内容与结构化数据应用的关键技术。通过原生多模态理解架构,VITA能够在一个模型中完成多维度的信息提取和结构化输出,为内容平台、电商、安防等场景提供可扩展的图片理解能力。
如需体验VITA的图片结构化信息提取能力,可访问腾讯云TokenHub平台进行试用:https://console.cloud.tencent.com/tokenhub/multimodal?modelId=youtu-vita
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。