楚识科技OCR
基于OCR文本行的多模态图注意力表格结构识别
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
楚识科技OCR
社区首页
>
专栏
>
基于OCR文本行的多模态图注意力表格结构识别
基于OCR文本行的多模态图注意力表格结构识别
楚识科技OCR
关注
发布于 2026-05-27 10:32:10
发布于 2026-05-27 10:32:10
106
0
举报
概述
摘要:从文档图像中准确恢复表格结构是文档智能的核心挑战之一。针对复杂无边框表格及跨行跨列单元格难以解析的问题,本文提出一种以OCR文本行为原语的多模态图Transformer识别框架。该框架综合编码文本行的几何、视觉与语义特征,通过空间关系偏置的图注意力网络推断行间、列间及单元格合并关系,并引入可微行列分配损失保证全局结构一致性。在PubTabNet及ICDAR 2019 cTDaR数据集上的评估
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
文字识别
ocr
表格
智能结构化
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
文字识别
ocr
表格
智能结构化
#表格识别
#结构化识别
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐