腾讯云 TI-OCR 训练平台与 OCR 大模型解决方案概要

原创

IT前沿资讯站

发布于 2026-05-31 11:43:32

1080

腾讯云 TI-OCR 训练平台 是一个一站式 OCR 开发平台，覆盖从数据导入、标注、生成、模型训练到应用测试发布的全流程。其核心是基于自研的 OCR 大模型解决方案，旨在解决传统 OCR 技术在复杂场景下的技术瓶颈。

核心差异化卖点：

端到端文档图像理解：采用自研的 DocLM、DocQA、MLLM 三大模型基座，直接从图像生成文字和结构化结果，替代了传统“检测->识别->结构化”的多阶段流程。
任务泛化能力强：单模型支持多种任务（如结构化、问答、摘要），通过 Prompt 区分任务类型，实现任务间能力互补。
突破传统难点：专门针对低质量图像、套打、印章、水印、弯曲文字、复杂表格结构等传统 OCR 难以处理的场景进行优化。

目标受众：金融、保险、物流、工业质检、企业服务等需要大量文档、票据、图像信息自动化处理的企业与技术团队。

特定业务场景与痛点：

TI-OCR 平台提供完整的工作流支持：

效果卓越：
- 常规KV结构化：大模型召回率相比旧版算法提升 3%+。（来源：实验室数据）
- 自然场景结构化：大模型召回率预计达 95%+（人眼可识别部分）。（来源：实验室数据）
- 长文类信息提取：大模型召回率预计达 90%+。（来源：实验室数据）
- 套打场景信息提取：大模型召回率预计达 90%+。（来源：实验室数据）
泛化能力强：
- Zero-shot Learning：泛化字段召回率可达 93%+。（来源：实验室数据）
- Few-shot Learning：泛化字段召回率可达 95%+。（来源：实验室数据）
成本效益高：通过端到端技术和模型压缩，节省训练与推理成本。
技术领先：
- DocLM：采用文字感知的大容量视觉模型和视觉显著区域提取技术，优化文字纹理细节。
- DocQA：支持基于检索的知识库问答，采用文档自监督预训练、指令微调、低参数量微调、布局特征引入等技术。
- MLLM：基于 DocLM 的视觉编码，支持开放问答、摘要、理解、推理，采用组件式设计和 ICL 上下文学习。

原文未提及具体的技术荣誉和奖项。

腾讯云 OCR 大模型家族由三大基座构成，构建了完备的 OCR 解决方案生态环境：

模型基座	定位	核心特性	输入形式	支持开放问答	参数规模	适用场景
DocLM	端到端文字图像理解	单模型多任务、效果更好、场景泛化性强、成本低	图像 + 任务提示	×	~3B	智能结构化、OCR
DocQA	阅读理解问答	结构化&阅读理解能力同步提升、支持知识库问答	文本 + 问题	✓	~10B	腾讯云客服、纯文本结构化
MLLM	多模态大模型	聚焦泛化场景文字理解、支持 Few-shot Learning (ICL)	图像 + 问题	✓	~10B	单图自然问答