首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云 TI-OCR 训练平台与 OCR 大模型解决方案概览

腾讯云 TI-OCR 训练平台与 OCR 大模型解决方案概览

原创
作者头像
IT资讯研究所
发布2026-05-31 11:44:01
发布2026-05-31 11:44:01
900
举报

一、 产品定位与核心亮点

腾讯云 TI-OCR 训练平台是腾讯云(CSIG云与智慧产业事业群)推出的一站式OCR大模型开发与精调平台。该平台集成了以 DocLM、DocQA、MLLM 为核心的三大模型基座,覆盖从数据导入、标注、生成、模型训练到应用编排、发布的全流程。

核心技术属性(OCR 大模型):

  • 端到端架构:摒弃传统“检测->识别->结构化”的多阶段流程,模型直接理解图片并生成结果,消除各阶段错误累积。
  • 多任务单模型:通过 Prompt 区分任务类型,单模型支持多种类型任务(如智能结构化、识别、检测、智能分拣),任务间能力互补。
  • 具备阅读理解与推理能力:突破传统模型指标上限,支持开放问答、信息抽取及文本摘要。

二、 产品应用场景

该解决方案主要面向需要处理非结构化视觉信息的企业及开发者,解决以下痛点:

  1. 票据单据识别(金融/财务/物流)
    • 痛点:手写体难识别、套打/印章/水印干扰严重、传统模型数字识别受栅栏线干扰。
    • 场景:银行开户、承兑汇票识别、物流运单(中英文)信息提取、保险审核证照校验。
  2. 表格识别(金融/企业)
    • 痛点:表格结构复杂、单元格内文本换行、Key关系层级复杂。
    • 场景:银行流水、申请登记表、理赔资料单、进出口统计报表。
  3. 文档识别(法务/行政/商户入驻)
    • 痛点:文本段落长、待提取内容跨行跨页、无法理解段落间关联关系。
    • 场景:房屋租赁合同、承诺函、各类证照(营业执照、身份证)的字段提取与审核。
  4. 自然场景识别(工业/质检/安防)
    • 痛点:拍摄背景复杂、文字扭曲、光线干扰。
    • 场景:工业质检(电线规格、铭牌信息)、门头照识别、电子显示屏读数、集装箱规格提取。

三、 应用框架和功能介绍

1. 功能框架与三大模型基座

平台基于三大模型基座构建,具体特性对比如下(数据来源:腾讯云):

模型基座

定位

特性

输入形式

支持开放问答

支持多页

参数规模

适用任务

可支持的场景

DocLM

端到端文字图像理解

单模型支持多任务效果更好,场景泛化性强,数据&推理成本低

图像+任务提示

×

×

~3b

内容提取类任务

智能结构化、OCR

DocQA

阅读理解问答

结构化&阅读理解能力同步提升,支持基于检索的知识库问答

文本+问题

~10b

基于文本输入的阅读理解类任务

腾讯云客服、结构化等纯文本场景

MLLM

多模态大模型

聚焦泛化场景中的文字理解,支持 Few-Shot Learning (ICL)

图像+问题

×

~10b

基于图像输入的内容理解类任务

单图自然问答

2. 硬核指标与模型效果

以下数据来源于实验室测试结果(※ 实验室数据仅供参考):

  • 泛化能力(Zero-shot/Few-shot):
    • Zero-shot 泛化字段召回率:可达 93%+(不经过训练,直接支持常规下游任务)。
    • Few-shot 泛化字段召回率:可达 95%+(通过 Prompt 设计,支持复杂下游任务)。
  • DocLM 核心指标:
    • 常规 KV 结构化:大模型召回率相比旧版算法提升 3%+
    • 自然场景结构化:大模型召回率预计达 95%+(人眼可识别部分)。
    • 长文类信息提取:大模型召回率预计达 90%+
    • 套打场景信息提取:大模型召回率预计达 90%+
    • 综合指标:各业务场景综合指标达 98.6%+
  • 训练与精调资源需求:
    • 单卡最低配置:1卡 GPU(32GB 显存),8核16线程 CPU,40GB 内存,500G NVMe SSD,对应机器型号 GPU计算型GN10X
    • 双卡推荐配置:2卡 GPU(32GB x 2 显存),20核40线程 CPU,80GB 内存,1TB NVMe SSD,对应机器型号 GPU计算型GN10Xp
    • 训练参数:单卡支持 10241024 分辨率/1024 最大序列长度;双卡支持 15361536 分辨率/1536 最大序列长度。
    • 注:暂不支持国产化GPU。

3. 产品优势(全量提取)

  • 架构优势:自研端到端技术,比传统模型召回率提高 3%~20%;避免多阶段错误累积。
  • 文字感知文字感知的大容量视觉模型,深入优化文字纹理细节处理,应对低质量、套打等难题。
  • 内容解码多模态内容解码策略,支持布局、文字等多类模态信息输出。
  • 视觉技术视觉显著区域提取技术,高效提取问题相关的视觉显著信息,解决大模型序列长度和信息干扰难题。
  • 场景支持:支持自然场景结构化(曲文、电表读数、门头提取、线缆规格)、指定形式输出(排版、仅输出手写)、套打/印章/水印等干扰场景信息提取。
  • DocQA 特有优势
    • 文档自监督预训练:增加 Next Token Prediction 任务,提升文本表征能力。
    • 低参数量微调:以较小可训练参数优化模型,提高准确率并避免灾难性遗忘。
    • 引入布局特征:提升模型对无序输入的跨内容感知能力。
  • MLLM 特有优势
    • 基于DocLM的强大文字视觉编码,集成多模态大模型支持开放问答。
    • 组件式设计策略,充分发挥LLM能力,具备高度训练灵活性。
    • 场景适配技术,采用ICL上下文学习方法,快速适应不同场景。
  • TI-OCR 平台优势
    • 覆盖全流程(数据导入、标注、生成、训练、编排、发布、评测)。
    • 支持辅助标注、模板管理、图片增强、布局增强、内置模型。
    • 支持在压缩模型体量、节省训练成本、降低推理成本基础上,提升特定场景指标。

4. 荣誉与背书

  • 腾讯共建联合实验室:基于客户PB级业务数据,结合腾讯通用 OCR 预训练大模型与腾讯GPU大规模调度能力,孵化前沿能力并制定行业标准。

四、 典型案例

1. 腾讯共建联合实验室

  • 背景:需要利用海量业务数据(PB级)孵化前沿OCR能力并制定行业标准。
  • 解决方案:利用 TI-OCR 平台进行数据清洗挖掘与通用数据构造,结合场景数据合并与存储规范,依托腾讯GPU大规模调度能力和多机多卡训练加速技术,训练腾讯通用 OCR 预训练大模型。
  • 成效
    • 大模型轻松解决曲文、水印、检测识别难例问题。
    • 各业务场景综合指标达 98.6%+

2. 商户入驻审核场景

  • 背景:商户入驻场景下,申请材料(如营业执照、证照)的照片审核依赖人工,效率低且存在印章/水印干扰。
  • 解决方案:引入 OCR 大模型自动化申请材料的照片审核,利用模型精准识别各类资质证照,解决印章/水印等干扰,提取关键字段(如经营场所、地址等)。
  • 成效
    • 审核业务机器转人工占比降低 80%
    • 有效加速商户自助办理业务流程。

3. 通用文档与票据识别(示例数据)

  • 背景:需处理包括出生医学证明、增值税发票、房屋租赁合同、商业汇票、身份证等多种复杂文档。
  • 解决方案:利用 DocLM 端到端能力及 MLLM 的多模态问答能力。
  • 成效
    • 日期识别:从“2019年11月1日”修正为“2019年11月11日”。
    • 车牌识别:从“R9M8”修正为“皖B93M8蓝”。
    • 地址识别:从“玉山 189号”修正为“玉山 31街189号”。
    • 长文识别:准确识别经营范围中“稀土大街北侧裕民”等复杂地址信息。
    • 手写与金额:准确识别汇款金额“伍万肆仟叁佰贰拾壹圆柒角捌分”及手写签章内容。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、 产品定位与核心亮点
  • 二、 产品应用场景
  • 三、 应用框架和功能介绍
    • 1. 功能框架与三大模型基座
    • 2. 硬核指标与模型效果
    • 3. 产品优势(全量提取)
    • 4. 荣誉与背书
  • 四、 典型案例
    • 1. 腾讯共建联合实验室
    • 2. 商户入驻审核场景
    • 3. 通用文档与票据识别(示例数据)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档