首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >基于OCR文本行的多模态图注意力表格结构识别

基于OCR文本行的多模态图注意力表格结构识别

作者头像
楚识科技OCR
发布2026-05-27 10:32:10
发布2026-05-27 10:32:10
1060
举报
概述
摘要:从文档图像中准确恢复表格结构是文档智能的核心挑战之一。针对复杂无边框表格及跨行跨列单元格难以解析的问题,本文提出一种以OCR文本行为原语的多模态图Transformer识别框架。该框架综合编码文本行的几何、视觉与语义特征,通过空间关系偏置的图注意力网络推断行间、列间及单元格合并关系,并引入可微行列分配损失保证全局结构一致性。在PubTabNet及ICDAR 2019 cTDaR数据集上的评估

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档