语义分割的总体思路如下:有一张图像,希望将其像素分类到特定类别中。应用于文档时目标相同:有一张文档图像,希望对其区域进行分类。
文档通常由多个区域组成,每个区域包含不同信息。文档语义分割旨在检测文档中的这些区域,为每个区域分配类别标签或提取相关信息。
例如,一张收据会包含以下区域:
分割由深度学习模型处理,该模型输入文档图像并输出相应的分割区域。
为了从文档中提取有用信息,分割模型必须能够执行以下任务:
实施文档分割主要有三种方法:
关键步骤包括:
文档分割数据集包含文档图像文件及其对应标注。主要使用两种方法:
标注通常以JSON格式存储。
广泛用于图像分割任务的架构,包含编码器和解码器。编码器对输入图像下采样,提取关键特征;解码器上采样以生成分割掩码。DocParseNet是其变体之一。
如YOLO和SSD,设计用于预测边界框。可针对文档分割任务进行微调,输出更简单(矩形边界框而非复杂掩码)。
LayoutLM及其变体引入了文档预训练概念,不仅处理文本,还处理文档的视觉和布局信息。结合文本嵌入、2D位置嵌入和图像嵌入。预训练任务包括掩码视觉语言建模和多标签文档分类。可微调用于表单理解、收据解析和文档图像分类等任务。
方面 | UNet | 目标检测模型 (YOLO, Mask R-CNN, SSD) | LayoutLM |
|---|---|---|---|
主要任务 | 图像分割(像素级) | 目标检测(边界框预测) | 文档理解与分割 |
架构 | 基于CNN的编码器-解码器 | 基于CNN | 基于Transformer,含文档布局表示 |
输出 | 分割区域 | 边界框(坐标) | 文本和布局感知的分割 |
预训练 | 在图像分割任务上预训练 | 在目标检测任务上预训练 | 在文档结构上预训练 |
优势 | 精确的像素级分割 | 输出更简单,推理更快 | 针对文档特定任务微调,布局感知 |
某机构Document AI在信用管理中的应用:某信用管理公司利用某机构的Document AI和云计算,从客户沟通(如电子邮件、短信和其他文档)中自动提取关键信用产品信息。
某平台在汽车保险理赔中的应用:某大型汽车保险公司采用某平台的智能文档处理平台,从出险通知书中提取信息,准确率超过99%。
多模态模型,特别是视觉语言模型,正在变革文档分析。这些模型能够同时处理文本和图像。某机构的开源模型Paligemma是多模态模型的例子,通过微调可以创建交互式文档分析系统。视觉语言模型将重新定义文档工作流的管理方式,实现更直观的交互和增强的数据提取。
文档语义分割是一种变革性的方法,用于从各种文档类型中组织和提取有意义的信息。结合稳健的数据准备技术、深度学习架构和可靠的评估指标,可以开发出提供准确、高效结果的模型。随着多模态模型的进步,它们处理多样化任务的能力将重新定义文档处理方式。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。