近年来,自然语言处理(NLP)飞速发展,在机器翻译、阅读理解等方面已达人类水平。然而,现实文档远比研究任务复杂,机器连常见的Word和PDF都难以完整解析。让机器理解文档中的标题、段落、表格、图片等内容,是NLP走向实际应用的关键一步。
为此,微软亚洲研究院推出TableBank——一个基于弱监督构建的大规模表格检测与识别数据集,涵盖41.7万个表格,远超此前人工标注规模,并已开源。
TableBank的工作分为两步:
表格检测:利用Word的XML源码和LaTex命令,自动为表格添加边框并定位,生成带标注的PDF页面,再采用Faster R-CNN模型进行检测。
表格结构识别:OCR虽能提取文字,却无法理解行列关系。研究员结合OCR与自动布局识别,将Word表格XML转为HTML标注行列,LaTex则先转XML再转HTML,从而明确单元格间逻辑关系。
该数据集已在GitHub开源(https://github.com/doc-analysis/TableBank),其中检测数据41.7万,结构识别数据14.5万。
TableBank融合计算机视觉与OCR技术,为文档智能分析打下基础。未来可应用于扫描件、纸质表格、年报、发票等信息提取场景。当然,表格只是文档的一小部分,标题、段落、脚注、图片等非结构化内容的智能理解,仍是NLP领域长期探索的方向。