开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

这是一份数据量达41.7万开源表格数据集

文章来源：企鹅号 - 邪恶的黄瓜

近年来，自然语言处理（NLP）飞速发展，在机器翻译、阅读理解等方面已达人类水平。然而，现实文档远比研究任务复杂，机器连常见的Word和PDF都难以完整解析。让机器理解文档中的标题、段落、表格、图片等内容，是NLP走向实际应用的关键一步。

为此，微软亚洲研究院推出TableBank——一个基于弱监督构建的大规模表格检测与识别数据集，涵盖41.7万个表格，远超此前人工标注规模，并已开源。

TableBank的工作分为两步：

表格检测：利用Word的XML源码和LaTex命令，自动为表格添加边框并定位，生成带标注的PDF页面，再采用Faster R-CNN模型进行检测。

表格结构识别：OCR虽能提取文字，却无法理解行列关系。研究员结合OCR与自动布局识别，将Word表格XML转为HTML标注行列，LaTex则先转XML再转HTML，从而明确单元格间逻辑关系。

该数据集已在GitHub开源（https://github.com/doc-analysis/TableBank），其中检测数据41.7万，结构识别数据14.5万。

TableBank融合计算机视觉与OCR技术，为文档智能分析打下基础。未来可应用于扫描件、纸质表格、年报、发票等信息提取场景。当然，表格只是文档的一小部分，标题、段落、脚注、图片等非结构化内容的智能理解，仍是NLP领域长期探索的方向。

发表于: 2026-06-182026-06-18 15:31:23
原文链接：https://page.om.qq.com/page/OHkVtghYfOlDNM9dup7PAtYg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯