首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云 TI-OCR 训练平台与 OCR 大模型解决方案概要

腾讯云 TI-OCR 训练平台与 OCR 大模型解决方案概要

原创
作者头像
IT前沿资讯站
发布2026-05-31 11:43:32
发布2026-05-31 11:43:32
1080
举报

一、产品定位与核心亮点

腾讯云 TI-OCR 训练平台 是一个一站式 OCR 开发平台,覆盖从数据导入、标注、生成、模型训练到应用测试发布的全流程。其核心是基于自研的 OCR 大模型解决方案,旨在解决传统 OCR 技术在复杂场景下的技术瓶颈。

核心差异化卖点

  • 端到端文档图像理解:采用自研的 DocLM、DocQA、MLLM 三大模型基座,直接从图像生成文字和结构化结果,替代了传统“检测->识别->结构化”的多阶段流程。
  • 任务泛化能力强:单模型支持多种任务(如结构化、问答、摘要),通过 Prompt 区分任务类型,实现任务间能力互补。
  • 突破传统难点:专门针对低质量图像、套打、印章、水印、弯曲文字、复杂表格结构等传统 OCR 难以处理的场景进行优化。

二、产品应用场景

目标受众:金融、保险、物流、工业质检、企业服务等需要大量文档、票据、图像信息自动化处理的企业与技术团队。

特定业务场景与痛点

  • 票据单据识别:银行汇票、保险单等场景中,存在手写体难识别、套打/印章/水印干扰等痛点。
  • 表格识别:金融账户流水、申请登记表等复杂表格结构,存在栅栏线干扰、单元格文本换行等难题。
  • 文档理解:合同、承诺函等长文档,需提取跨行跨页的关键字段,并理解段落间关联关系。
  • 自然场景识别:商户门头照、工业铭牌、电线规格等场景,存在拍摄背景复杂、文字扭曲、背景干扰等问题。
  • 审核流程自动化:在商户入驻等业务中,需降低机器审核转人工的比例,加速业务流程。

三、应用框架和功能介绍

功能框架

TI-OCR 平台提供完整的工作流支持:

  • 数据管理:数据导入、标注(支持辅助标注)、生成(内置前处理、图片增强、布局增强)。
  • 模型中心:内置模型(OCR、大模型)、模型训练、模型评测。
  • 应用编排:应用发布、应用评测、自定义后处理。
  • 管理中心:项目/成员管理、资源隔离、运行任务管理。

硬核指标

  • 模型规模:DocLM 参数规模约 3B;DocQA/MLLM 参数规模约 10B
  • 图像分辨率支持:训练支持 1024x1024(单卡)至 1536x1536(双卡)。
  • 序列长度:最大序列长度支持 1024(单卡)至 1536(双卡)。

产品优势

  1. 效果卓越
    • 常规KV结构化:大模型召回率相比旧版算法提升 3%+(来源:实验室数据)
    • 自然场景结构化:大模型召回率预计达 95%+(人眼可识别部分)。(来源:实验室数据)
    • 长文类信息提取:大模型召回率预计达 90%+(来源:实验室数据)
    • 套打场景信息提取:大模型召回率预计达 90%+(来源:实验室数据)
  2. 泛化能力强
    • Zero-shot Learning:泛化字段召回率可达 93%+(来源:实验室数据)
    • Few-shot Learning:泛化字段召回率可达 95%+(来源:实验室数据)
  3. 成本效益高:通过端到端技术和模型压缩,节省训练与推理成本。
  4. 技术领先
    • DocLM:采用文字感知的大容量视觉模型和视觉显著区域提取技术,优化文字纹理细节。
    • DocQA:支持基于检索的知识库问答,采用文档自监督预训练、指令微调、低参数量微调、布局特征引入等技术。
    • MLLM:基于 DocLM 的视觉编码,支持开放问答、摘要、理解、推理,采用组件式设计和 ICL 上下文学习。

荣誉背书

原文未提及具体的技术荣誉和奖项。

四、典型案例

案例一:腾讯联合实验室

  • 背景:与腾讯共建联合实验室,孵化前沿能力,制定行业标准。
  • 解决方案:利用客户 PB 级业务数据,经过数据清洗和通用数据构造,结合腾讯通用 OCR 预训练大模型和 GPU 大规模调度能力,进行多机多卡训练加速。
  • 成效:大模型成功解决曲文、水印、检测识别难例问题,各业务场景综合指标达 98.6%+

案例二:商户入驻审核场景

  • 背景:在商户入驻场景下,需要对申请材料的照片进行自动化审核。
  • 解决方案:引入 OCR 大模型识别各类资质证照,解决印章、水印等干扰,提取关键字段。
  • 成效:有效降低机器转人工的比例达 80%,加速了商户自助办理业务的流程。

五、总结与模型家族概览

腾讯云 OCR 大模型家族由三大基座构成,构建了完备的 OCR 解决方案生态环境:

模型基座

定位

核心特性

输入形式

支持开放问答

参数规模

适用场景

DocLM

端到端文字图像理解

单模型多任务、效果更好、场景泛化性强、成本低

图像 + 任务提示

×

~3B

智能结构化、OCR

DocQA

阅读理解问答

结构化&阅读理解能力同步提升、支持知识库问答

文本 + 问题

~10B

腾讯云客服、纯文本结构化

MLLM

多模态大模型

聚焦泛化场景文字理解、支持 Few-shot Learning (ICL)

图像 + 问题

~10B

单图自然问答

最低资源配置要求

  • 单卡训练:GPU 1卡(32GB 显存)、8核CPU、40GB内存、500G NVMe SSD。
  • 双卡推荐:GPU 2卡(32GB*2 显存)、20核CPU、80GB内存、1TB NVMe SSD。
  • 对应机型:腾讯云 GPU 计算型 GN10X / GN10Xp(暂不支持国产化 GPU)。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、产品定位与核心亮点
  • 二、产品应用场景
  • 三、应用框架和功能介绍
    • 功能框架
    • 硬核指标
    • 产品优势
    • 荣誉背书
  • 四、典型案例
    • 案例一:腾讯联合实验室
    • 案例二:商户入驻审核场景
  • 五、总结与模型家族概览
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档