
腾讯云 TI-OCR 训练平台是腾讯云(CSIG云与智慧产业事业群)推出的一站式OCR大模型开发与精调平台。该平台集成了以 DocLM、DocQA、MLLM 为核心的三大模型基座,覆盖从数据导入、标注、生成、模型训练到应用编排、发布的全流程。
核心技术属性(OCR 大模型):
该解决方案主要面向需要处理非结构化视觉信息的企业及开发者,解决以下痛点:
平台基于三大模型基座构建,具体特性对比如下(数据来源:腾讯云):
模型基座 | 定位 | 特性 | 输入形式 | 支持开放问答 | 支持多页 | 参数规模 | 适用任务 | 可支持的场景 |
|---|---|---|---|---|---|---|---|---|
DocLM | 端到端文字图像理解 | 单模型支持多任务效果更好,场景泛化性强,数据&推理成本低 | 图像+任务提示 | × | × | ~3b | 内容提取类任务 | 智能结构化、OCR |
DocQA | 阅读理解问答 | 结构化&阅读理解能力同步提升,支持基于检索的知识库问答 | 文本+问题 | ✓ | ✓ | ~10b | 基于文本输入的阅读理解类任务 | 腾讯云客服、结构化等纯文本场景 |
MLLM | 多模态大模型 | 聚焦泛化场景中的文字理解,支持 Few-Shot Learning (ICL) | 图像+问题 | ✓ | × | ~10b | 基于图像输入的内容理解类任务 | 单图自然问答 |
以下数据来源于实验室测试结果(※ 实验室数据仅供参考):
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。