首页
学习
活动
专区
圈层
工具
发布

这是一份数据量达41.7万开源表格数据集

近年来,自然语言处理(NLP)飞速发展,在机器翻译、阅读理解等方面已达人类水平。然而,现实文档远比研究任务复杂,机器连常见的Word和PDF都难以完整解析。让机器理解文档中的标题、段落、表格、图片等内容,是NLP走向实际应用的关键一步。

为此,微软亚洲研究院推出TableBank——一个基于弱监督构建的大规模表格检测与识别数据集,涵盖41.7万个表格,远超此前人工标注规模,并已开源。

TableBank的工作分为两步:

表格检测:利用Word的XML源码和LaTex命令,自动为表格添加边框并定位,生成带标注的PDF页面,再采用Faster R-CNN模型进行检测。

表格结构识别:OCR虽能提取文字,却无法理解行列关系。研究员结合OCR与自动布局识别,将Word表格XML转为HTML标注行列,LaTex则先转XML再转HTML,从而明确单元格间逻辑关系。

该数据集已在GitHub开源(https://github.com/doc-analysis/TableBank),其中检测数据41.7万,结构识别数据14.5万。

TableBank融合计算机视觉与OCR技术,为文档智能分析打下基础。未来可应用于扫描件、纸质表格、年报、发票等信息提取场景。当然,表格只是文档的一小部分,标题、段落、脚注、图片等非结构化内容的智能理解,仍是NLP领域长期探索的方向。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OHkVtghYfOlDNM9dup7PAtYg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券