腾讯云 TI-OCR 训练平台与 OCR 大模型解决方案概览

原创

IT资讯研究所

发布于 2026-05-31 11:44:01

900

一、产品定位与核心亮点

腾讯云 TI-OCR 训练平台是腾讯云（CSIG云与智慧产业事业群）推出的一站式OCR大模型开发与精调平台。该平台集成了以 DocLM、DocQA、MLLM 为核心的三大模型基座，覆盖从数据导入、标注、生成、模型训练到应用编排、发布的全流程。

核心技术属性（OCR 大模型）：

端到端架构：摒弃传统“检测->识别->结构化”的多阶段流程，模型直接理解图片并生成结果，消除各阶段错误累积。
多任务单模型：通过 Prompt 区分任务类型，单模型支持多种类型任务（如智能结构化、识别、检测、智能分拣），任务间能力互补。
具备阅读理解与推理能力：突破传统模型指标上限，支持开放问答、信息抽取及文本摘要。

二、产品应用场景

该解决方案主要面向需要处理非结构化视觉信息的企业及开发者，解决以下痛点：

票据单据识别（金融/财务/物流）
- 痛点：手写体难识别、套打/印章/水印干扰严重、传统模型数字识别受栅栏线干扰。
- 场景：银行开户、承兑汇票识别、物流运单（中英文）信息提取、保险审核证照校验。
表格识别（金融/企业）
- 痛点：表格结构复杂、单元格内文本换行、Key关系层级复杂。
- 场景：银行流水、申请登记表、理赔资料单、进出口统计报表。
文档识别（法务/行政/商户入驻）
- 痛点：文本段落长、待提取内容跨行跨页、无法理解段落间关联关系。
- 场景：房屋租赁合同、承诺函、各类证照（营业执照、身份证）的字段提取与审核。
自然场景识别（工业/质检/安防）
- 痛点：拍摄背景复杂、文字扭曲、光线干扰。
- 场景：工业质检（电线规格、铭牌信息）、门头照识别、电子显示屏读数、集装箱规格提取。

三、应用框架和功能介绍

1. 功能框架与三大模型基座

平台基于三大模型基座构建，具体特性对比如下（数据来源：腾讯云）：

模型基座	定位	特性	输入形式	支持开放问答	支持多页	参数规模	适用任务	可支持的场景
DocLM	端到端文字图像理解	单模型支持多任务效果更好，场景泛化性强，数据&推理成本低	图像+任务提示	×	×	~3b	内容提取类任务	智能结构化、OCR
DocQA	阅读理解问答	结构化&阅读理解能力同步提升，支持基于检索的知识库问答	文本+问题	✓	✓	~10b	基于文本输入的阅读理解类任务	腾讯云客服、结构化等纯文本场景
MLLM	多模态大模型	聚焦泛化场景中的文字理解，支持 Few-Shot Learning (ICL)	图像+问题	✓	×	~10b	基于图像输入的内容理解类任务	单图自然问答

2. 硬核指标与模型效果

以下数据来源于实验室测试结果（※ 实验室数据仅供参考）：

泛化能力（Zero-shot/Few-shot）：
- Zero-shot 泛化字段召回率：可达 93%+（不经过训练，直接支持常规下游任务）。
- Few-shot 泛化字段召回率：可达 95%+（通过 Prompt 设计，支持复杂下游任务）。
DocLM 核心指标：
- 常规 KV 结构化：大模型召回率相比旧版算法提升 3%+。
- 自然场景结构化：大模型召回率预计达 95%+（人眼可识别部分）。
- 长文类信息提取：大模型召回率预计达 90%+。
- 套打场景信息提取：大模型召回率预计达 90%+。
- 综合指标：各业务场景综合指标达 98.6%+。
训练与精调资源需求：
- 单卡最低配置：1卡 GPU（32GB 显存），8核16线程 CPU，40GB 内存，500G NVMe SSD，对应机器型号 GPU计算型GN10X。
- 双卡推荐配置：2卡 GPU（32GB x 2 显存），20核40线程 CPU，80GB 内存，1TB NVMe SSD，对应机器型号 GPU计算型GN10Xp。
- 训练参数：单卡支持 10241024 分辨率/1024 最大序列长度；双卡支持 15361536 分辨率/1536 最大序列长度。
- 注：暂不支持国产化GPU。

3. 产品优势（全量提取）

架构优势：自研端到端技术，比传统模型召回率提高 3%~20%；避免多阶段错误累积。
文字感知：文字感知的大容量视觉模型，深入优化文字纹理细节处理，应对低质量、套打等难题。
内容解码：多模态内容解码策略，支持布局、文字等多类模态信息输出。
视觉技术：视觉显著区域提取技术，高效提取问题相关的视觉显著信息，解决大模型序列长度和信息干扰难题。
场景支持：支持自然场景结构化（曲文、电表读数、门头提取、线缆规格）、指定形式输出（排版、仅输出手写）、套打/印章/水印等干扰场景信息提取。
DocQA 特有优势：
- 文档自监督预训练：增加 Next Token Prediction 任务，提升文本表征能力。
- 低参数量微调：以较小可训练参数优化模型，提高准确率并避免灾难性遗忘。
- 引入布局特征：提升模型对无序输入的跨内容感知能力。
MLLM 特有优势：
- 基于DocLM的强大文字视觉编码，集成多模态大模型支持开放问答。
- 组件式设计策略，充分发挥LLM能力，具备高度训练灵活性。
- 场景适配技术，采用ICL上下文学习方法，快速适应不同场景。
TI-OCR 平台优势：
- 覆盖全流程（数据导入、标注、生成、训练、编排、发布、评测）。
- 支持辅助标注、模板管理、图片增强、布局增强、内置模型。
- 支持在压缩模型体量、节省训练成本、降低推理成本基础上，提升特定场景指标。

4. 荣誉与背书

腾讯共建联合实验室：基于客户PB级业务数据，结合腾讯通用 OCR 预训练大模型与腾讯GPU大规模调度能力，孵化前沿能力并制定行业标准。

四、典型案例

1. 腾讯共建联合实验室

背景：需要利用海量业务数据（PB级）孵化前沿OCR能力并制定行业标准。
解决方案：利用 TI-OCR 平台进行数据清洗挖掘与通用数据构造，结合场景数据合并与存储规范，依托腾讯GPU大规模调度能力和多机多卡训练加速技术，训练腾讯通用 OCR 预训练大模型。
成效：
- 大模型轻松解决曲文、水印、检测识别难例问题。
- 各业务场景综合指标达 98.6%+。

2. 商户入驻审核场景

背景：商户入驻场景下，申请材料（如营业执照、证照）的照片审核依赖人工，效率低且存在印章/水印干扰。
解决方案：引入 OCR 大模型自动化申请材料的照片审核，利用模型精准识别各类资质证照，解决印章/水印等干扰，提取关键字段（如经营场所、地址等）。
成效：
- 审核业务机器转人工占比降低 80%。
- 有效加速商户自助办理业务流程。

3. 通用文档与票据识别（示例数据）

背景：需处理包括出生医学证明、增值税发票、房屋租赁合同、商业汇票、身份证等多种复杂文档。
解决方案：利用 DocLM 端到端能力及 MLLM 的多模态问答能力。
成效：
- 日期识别：从“2019年11月1日”修正为“2019年11月11日”。
- 车牌识别：从“R9M8”修正为“皖B93M8蓝”。
- 地址识别：从“玉山 189号”修正为“玉山 31街189号”。
- 长文识别：准确识别经营范围中“稀土大街北侧裕民”等复杂地址信息。
- 手写与金额：准确识别汇款金额“伍万肆仟叁佰贰拾壹圆柒角捌分”及手写签章内容。