
腾讯云智能体开发平台提供了一套基于大模型的文档智能处理与多模态理解原子能力。其核心是将OCR大模型与mLLM多模态大模型相结合,解决企业知识库喂给大模型时面临的非结构化数据解析难题。
核心技术属性与差异化卖点:
本产品主要服务于需要将复杂非结构化文档转化为大模型可理解格式的场景,解决以下受众痛点:
平台主要包含两大核心原子能力:文档解析与文档切分,并辅以多模态图片理解能力。
指标维度 | 详细数据 |
|---|---|
复杂公式解析 | 复杂公式解析成功率达到 9X% |
多级切分准确率 | 一级片段:8x% 二级片段:9x% |
多级切分召回率 | 一级片段:9x% 二级片段:8x% |
输入格式支持 | PDF, PPT, EXCEL, DOCX, URL, HTML |
输出格式 | Markdown, JSON(包含文字、图片、表格、公式、坐标、章节树状结构) |
版式支持 | 双栏、单双栏混排、三栏、横向多栏、纵向多栏 |
元素支持 | 图文、公式、段落、表格(有线/无线)、页眉、页脚、图/表注群组 |
主讲人: 韦昭南
数据来源: 腾讯云智能体开发平台技术分享材料
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。