首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云智能体开发平台:非结构化文档解析与多模态理解能力概要

腾讯云智能体开发平台:非结构化文档解析与多模态理解能力概要

原创
作者头像
IT资讯研究所
发布2026-05-30 01:57:09
发布2026-05-30 01:57:09
300
举报

一、 产品定位与核心亮点

腾讯云智能体开发平台提供了一套基于大模型的文档智能处理与多模态理解原子能力。其核心是将OCR大模型mLLM多模态大模型相结合,解决企业知识库喂给大模型时面临的非结构化数据解析难题。

核心技术属性与差异化卖点:

  • 高精度复杂版面解析: 基于OCR解析大模型,对图文混排复杂文档的解析准确率提升约 3x%
  • 业内首创语义切分: 推出业内首个语义切分大模型,解决传统切分导致的语义截断问题,保障RAG(检索增强生成)场景下的上下文完整性。
  • 多模态图表理解: 基于精调的多模态大模型,不仅识别图片,还能对数据图、架构图、思维导图等进行深度解读并转化为结构化数据。

二、 产品应用场景

本产品主要服务于需要将复杂非结构化文档转化为大模型可理解格式的场景,解决以下受众痛点:

  1. 大模型厂商(LLM底座训练):
    • 痛点: 预训练需要海量高质量语料,但文档中包含大量复杂公式、复杂图文样式,传统OCR识别精度低、元素易丢失,难以生成高质量的结构化语料。
    • 场景: 在金融、法律、科研等领域的长文本AI对话产品训练与优化中,处理用户上传的包含复杂数学公式和表达式的文档。
  2. 企业知识库构建者(RAG应用):
    • 痛点: 企业文档排版复杂(多栏、跨页表格、图文环绕),传统切分方式缺乏通用性,容易截断语义,导致端到端检索准确度低。
    • 场景: 对说明书、论文、试卷、PPT等文档进行清洗、切分,构建可用于智能问答的知识库。
  3. 数据分析与处理人员:
    • 痛点: 文档中的图表(柱形图、饼图、流程图等)无法直接被程序读取和分析。
    • 场景: 需要将图片中的数据提取为Markdown表格,或进行图表问答、数值计算。

三、 应用框架和功能介绍

1. 功能框架

平台主要包含两大核心原子能力:文档解析文档切分,并辅以多模态图片理解能力。

  • 文档解析流程(多阶段方案):
    1. 定位: 利用自研文本检测网络(基于Compact Inception blocks特征提取 + RNN特征加强 + Box生成),定位版面元素的位置、类型、顺序。
    2. 识别: 针对不同元素(文字、公式、表格)进行内容识别。
    3. 整合: 将各元素识别结果按阅读顺序整合为Markdown或JSON输出。
  • 文档切分流程:
    • 采用多级文档切分方式,输入问答内容,输出包含一二级片段的JSON格式数据。
  • 多模态理解:
    • 对图片进行精调,支持直接输出图表对应的Markdown或Mermaid语法。

2. 硬核指标

指标维度

详细数据

复杂公式解析

复杂公式解析成功率达到 9X%

多级切分准确率

一级片段:8x% 二级片段:9x%

多级切分召回率

一级片段:9x% 二级片段:8x%

输入格式支持

PDF, PPT, EXCEL, DOCX, URL, HTML

输出格式

Markdown, JSON(包含文字、图片、表格、公式、坐标、章节树状结构)

版式支持

双栏、单双栏混排、三栏、横向多栏、纵向多栏

元素支持

图文、公式、段落、表格(有线/无线)、页眉、页脚、图/表注群组

3. 产品优势

  • 文档解析能力:
    • 版面还原: 能准确定位版面元素位置、类型、顺序,还原复杂排版(如跨栏段落、图表文环绕)。
    • 公式识别: 专门针对复杂数学公式符号、不规则布局进行优化,解决传统OCR公式识别乱码问题。
    • 表格识别: 支持有线表格、无线表格的准确抽取与结构还原。
    • 子元素识别: 支持段落内图像、表格内图像、段落内公式等复杂子元素的识别。
    • 顺序重组: 基于文档元素及位置信息进行“定制化”重组,保证阅读顺序正确。
  • 文档切分能力:
    • 语义完整: 业内首个语义切分大模型,有效解决传统按字符数切分导致的语义截断问题。
    • 多级检索: 采用多级文档切分方式,将文档切分成适合检索和大模型问答的片段(一级/二级),端到端检索准确度大幅提升
  • 多模态理解能力(mLLM):
    • 图表转数据: 支持将柱形图、饼图、折线图转换为Markdown表格(Chart2Table)。
    • 逻辑图解析: 支持对流程图、组织架构图、思维导图进行识别并输出可视化代码(如Mermaid/Graph TD)。
    • 复杂问答: 支持对混合图表进行常规提问、对比性提问、K-V问答及数值计算。
    • 多语种与OCR: 支持版面元素排序、多语种识别及全文结构化信息提取。

4. 荣誉背书

  • 基于OCR解析大模型,对图文混排复杂文档解析准确率提升约 3x%,效果处于行业领先地位。
  • 文档切分大模型为业内首个语义切分大模型。

四、 典型案例

案例一:某头部大模型公司

  • 背景: 该公司主要产品为一款长文本处理能力极强的AI对话类产品,在金融、法律、科研等领域有大量用户。用户上传的文档中包含大量的数学公式和表达式,公式符号复杂多样,布局不规则,对文档解析能力要求极高。
  • 解决方案: 采用腾讯云文档解析方案,针对复杂公式进行专项优化。
  • 成效:
    • 复杂公式解析成功率达到 9X%
    • 相比原方案,腾讯云方案能准确还原矩阵、分式等复杂结构,避免了原方案中符号缺失、乱码或结构错位的问题。

案例二:某LLM大模型底座

  • 背景: 该大模型底座需要利用文档解析能力生成丰富的结构化语料,以帮助LLM模型底座进行预训练。面临的挑战是文档类型多样,其中的复杂图文样式、公式类型数据较多,依赖文档解析能力识别并解析各类文档元素。
  • 解决方案: 利用腾讯云文档解析能力,处理包含光学仪器原理图、复杂数学公式($x_2=x_3(x_4(x_5))...$)等元素的多样化文档,生成训练语料。
  • 成效: 成功识别并解析各类复杂文档元素(如图文混排、复杂公式),为模型预训练提供了高质量的结构化数据支持。

主讲人: 韦昭南

数据来源: 腾讯云智能体开发平台技术分享材料

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、 产品定位与核心亮点
  • 二、 产品应用场景
  • 三、 应用框架和功能介绍
    • 1. 功能框架
    • 2. 硬核指标
    • 3. 产品优势
    • 4. 荣誉背书
  • 四、 典型案例
    • 案例一:某头部大模型公司
    • 案例二:某LLM大模型底座
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档