搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI SPPECH
20：GLM-OCR 深度解析：轻量级多模态OCR的技术突破
作者： HOS(安全风信子) 日期： 2026-02-07 主要来源平台： ModelScope 摘要： GLM-OCR作为智谱开源的0.9B轻量级多模态OCR模型，通过GLM-V架构与自研CogViT 作为智谱AI团队的最新力作，它通过轻量级设计（仅0.9B参数）和多模态融合，在保持高性能的同时，大幅降低了部署门槛，为OCR技术的普及和应用拓展了新的可能性。 GLM-OCR带来了至少3个前所未见的全新要素： 2.1 轻量级多模态架构设计创新点：基于GLM-V架构，融合自研CogViT视觉编码器，将模型参数量控制在0.9B的同时，保持了多模态理解能力。领域提供了轻量级、高性能的开源解决方案技术创新：融合了多模态学习、强化学习等前沿技术，推动了OCR技术的发展生态构建：基于ModelScope平台，构建了完整的OCR技术生态 5.2 潜在风险技术风险 , 轻量级OCR, 多模态OCR, 强化学习, 手写体识别, 表格解析, 印章识别, 多语言混排
1.9K10编辑于 2026-02-08
腾讯优图多模态OCR大模型技术概览
一、产品定位与核心亮点腾讯优图多模态OCR大模型（Optical Character Recognition，光学字符识别）是一种将图像中文字转化为可编辑文本的AI技术。通用办公场景：用户需处理复杂表格、多页文档（如合同、报告）并需按自定义规则（如KV输出、Excel输出）进行结构化提取，传统OCR难以快速适应。多页支持：支持5页内文档端到端信息提取（来源：实测体验说明）。产品优势端到端解决方案：统一模型解决OCR全链路问题，避免多阶段错误累积。多模态融合解析：支持文本、图像、表格、版式融合解析，具备从“数据抽取→语义理解→业务推理”的三级能力。高泛化性：无需模型训练，开箱即用，支持API接入。解决方案：使用文档智能产品基于多模态OCR大模型，进行深度语义理解+结构化抽取，关键字段覆盖报告解析、医疗表格、单据核对、诊断证明、医保报销等场景。
13210编辑于 2026-05-30
来自专栏【腾讯云开发者】
腾讯多模态OCR大模型最新技术演进：没有最强OCR，只有无限进化！
接下来，我们将通过一篇文章为大家全景展示鹅厂OCR多模态大模型最新技术进展与商业化。腾讯优图 OCR 大模型（DocLM-Base） KV 结构化示例 1.3 OCR 3.0：多模态 OCR 大模型常规结构化任务是基于场景或者版式做的定制处理，成本很高。腾讯云OCR文档抽取（基础版），将结构化抽取任务抽象成从图像到结构化抽取文本的多模态翻译任务，解决了常规 K：V 场景的结构化抽取。，这需要多模态大模型的Prompt理解能力。基于腾讯优图多模态OCR大模型，我们正式推出了【文档智能】OCR新能力，打造新一代智能文档处理平台，实现各类文档的高精度识别、智能解析与结构化信息抽取。
5K11编辑于 2025-06-21
Java做人工智能：JBoltAI框架多模态与OCR技术解度
今天，我们就来聊聊在JBoltAI框架下，Java如何玩转多模态AI、OCR识别以及文件内容提取这些前沿技术，让AI应用开发变得更加简单高效。多模态AI：让机器“看”懂世界多模态AI，简单来说，就是让机器能够同时处理和理解文本、图像、音频等多种类型的数据。在JBoltAI框架中，多模态AI得到了很好的支持。作为Java开发者，你无需深入了解复杂的算法细节，只需通过简单的API调用，就能让你的Java应用拥有这些酷炫的多模态处理能力。无论是多模态处理、OCR识别还是文件内容提取，开发者都能通过简单的代码实现。更重要的是，框架采用了事件驱动架构和插件式设计，使得系统具有高度的灵活性和可扩展性。在JBoltAI框架的助力下，Java开发者可以轻松玩转多模态AI、OCR识别以及文件内容提取等前沿技术。
15510编辑于 2026-02-05
基于OCR文本行的多模态图注意力表格结构识别
针对复杂无边框表格及跨行跨列单元格难以解析的问题，本文提出一种以OCR文本行为原语的多模态图Transformer识别框架。本文聚焦于结构识别环节，并假设已由前端OCR引擎（如PaddleOCR或Tesseract）提供了较为准确的文本行边界框和文本内容。为此，本文提出一种多模态图Transformer结构，将每一OCR文本行视为图节点，动态构建空间感知邻域，并通过关系偏置的自注意力机制联合推断两两之间的结构关系，最终解码为逻辑表格。 2.1多模态节点特征为每个文本行提取三种模态的嵌入。几何特征gigi由归一化中心坐标、宽高及面积组成，经过两层MLP映射为64维。结论本文提出了融合几何、视觉与语义的多模态图注意力表格结构识别方法。利用空间关系偏置的自注意力机制和可微行列分配，在复杂表格上实现了稳健的结构恢复。
10610编辑于 2026-05-27
MiniCPM-V 系列模型在多模态文档 RAG 中的应用：无需OCR的高效多模态文档检索与问答系统
https://github.com/RhapsodyAILab/Awesome-MiniCPMV-Projects/tree/main/visrag作者：bokesyoMiniCPM-V 系列模型在多模态文档是否能够用一种近乎无损的方法来表征复杂图文文档，从而用来信息无损地检索多模态文档？那么，在这些支持 OCR 能力的模型上训练不需要 OCR 的向量检索模型，用来在大量文档中检索所需要的文档，就成为可能。现在我们以 OpenBMB 基于 MiniCPM-V-2.0 训练的端到端多模态检索模型 MiniCPM-Visual-Embedding-v0 为例，实现多模态检索。若不熟悉多模态信息检索也没有关系！本文的小标题非常容易follow。多模态检索配置环境如果你是 Linux+英伟达GPU用户，在开始前，我们需要配置 MiniCPM-V 的运行环境。
2.1K10编辑于 2024-08-19
来自专栏量子位
OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！
以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型Vary直接端到端输出结果：无论是中英文的大段文字：还是包含了公式的文档图片：又或是手机页面截图：甚至可以将图片中的表格转换成latex格式：当然，作为多模大模型，通用能力的保持也是必须的： Vary表现出了很大的潜力和极高的上限，OCR可以不再需要冗长的pipline，直接端到端输出，且可以按用户的受大模型启发打造目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。现在基于CLIP视觉词表的多模态大模型，面临着同样的问题，遇到“foreign language image”，如一页论文密密麻麻的文字，很难高效地将图片token化。在保持vanilla多模态能力的同时，激发出了端到端的中英文图片、公式截图和图表理解能力。
1.5K20编辑于 2023-12-28
来自专栏我爱计算机视觉
EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响
Motivation 视觉语言BERT模型扩展了BERT架构，以生成多模态输入的跨模态上下文表示。当对一系列下游任务进行微调时，这些模型已被证明是非常有效的。如果测试过程中，去除某个模态的信息，对最终结果影响很大，那这个模态在最终预测的时候就是有用的；否则这个模态就是没用的。多模态模型在预测时使用由多模态输入触发的跨模态激活。这是原始的多模态设置，因此，有效使用多模态信息的模型应该表现最好。 Object：在这里，作者只删除与对齐的文本短语相对应的图像区域，该模型仍然可以使用周围的视觉上下文特征。测试的模型显示了vision-for-language，而不是language-for-vision的结果，这一事实可能是多模态任务的积累，因为一些下游多模态任务需要强烈的 vision-for-language ▊ 作者简介研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。
2.6K20发布于 2021-09-28
当开源 OCR 革命撞上多模态成本困局：我们如何用 Gateone.ai 把 DeepSeek-OCR 变成“印钞机”
当开源 OCR 革命撞上多模态成本困局：我们如何用 Gateone.ai 把 DeepSeek-OCR 变成“印钞机”（开篇引爆行业新变量）就在我们为文档处理模块的准确率和延迟焦头烂额时，DeepSeek 二、Gateone.ai：让 DeepSeek-OCR 从“实验室玩具”变成“生产利器”就在我们濒临放弃时，Gateone.ai 的多模态模型中枢给了我们破局钥匙：✅ 统一接入，一键调度通过 Gateone.ai 的标准化多模态 API，我们把 DeepSeek-OCR、GPT-4o Vision、Claude 3.5 Sonnet 全部纳入同一个调度池。 ✅ 性能透视，精准归因Gateone.ai 的“多模态调试广场”让我们首次看清模型表现差异。结语：别让好模型死在集成路上DeepSeek-OCR 的开源，是送给所有垂直领域 AI 创业者的礼物。但礼物需要“拆封工具”——而 Gateone.ai，就是那把能打开多模态未来的万能钥匙。
37410编辑于 2025-10-24
鹅厂多模态OCR大模型技术演进与商业化应用概要
一、产品定位与核心亮点技术定义：鹅厂多模态OCR大模型（DocLM v5 / HRVDA）是腾讯优图实验室研发的第五代大规模预训练视觉文档理解（VDU）模型。它基于多模态融合架构，将OCR识别任务抽象为从图像到结构化文本的“多模态翻译任务”。功能框架与技术演进产品经历了从多阶段定制到多模态大模型的迭代：版本技术路线解决场景 OCR 1.0 多阶段定制（检测+识别+结构化）全文字识别、定制场景OCR结构化提取。 OCR 3.0 (DocLM-Large) 多模态OCR模型 Prompt驱动，支持个性化需求、开放式任务、复杂场景识别及多页文档处理。 2. 解决方案：应用文档智能产品，基于多模态OCR大模型的深度语义理解+结构化抽取技术。支持全国三甲医院200+版式模板。支持连笔、草书字符精准识别及双栏/跨页内容自动拼接。
13610编辑于 2026-05-30
腾讯多模态 OCR 大模型：技术演进、核心能力与商业化应用概要
一、产品定位与核心亮点技术定义：腾讯多模态 OCR 大模型（DocLM-Large / 腾讯云 OCR 文档智能）是由腾讯优图实验室研发的第五代大规模预训练视觉语言模型。该技术将传统光学字符识别（OCR）从“检测+识别+结构化”的多阶段定制流程式，全面升级为端到端、Prompt（提示词）驱动的单一多模态大模型。二、产品应用场景多模态 OCR 大模型主要服务于物流、出行、金融、零售、医疗、教育、保险等具备高频文档处理需求的企业与机构。产品优势能力（全量提取）多模态融合解析：打破单模态局限，同步支持文本、图像、表格、版式的融合解析。端到端全链路解决：克服多阶段方案中“错误累积”问题，支持复杂多图（如带附页的发票）的端到端处理。高分辨率容载：打破常规多模态模型 224x224 或 448x448 的尺寸限制，有效处理 4K 级高分辨率图像。
11110编辑于 2026-05-30
来自专栏存内计算加速大模型
腾讯发表多模态综述，什么是多模态大模型
MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。，并且提供了现有主流的 26 个多模态大模型的简介，总结了提升多模态大模型性能的关键方法，多模态大模型脱胎于大模型的发展，传统的多模态模型面临着巨大的计算开销，而 LLMs 在大量训练后掌握了关于世界的多模态大模型的整体架构可以被归类为如下图的五个部分，整个多模态大模型的训练可以被分为多模态理解与多模态生成两个步骤。多模态理解包含多模态编码器，输入投影与大模型主干三个部分，而多模态生成则包含输出投影与多模态生成器两个部分，通常而言，在训练过程中，多模态的编码器、生成器与大模型的参数一般都固定不变，不用于训练，主要优化的重点将落在输入投影与输出投影之中
6K13编辑于 2024-05-14
多模态文件处理与OCR识别：Java企业智能化升级的关键抓手
一、多模态文件处理与OCR识别的核心能力对于Java企业而言，一套成熟的多模态文件处理方案需要覆盖全类型数据的解析需求，同时具备高精度的内容提取能力，这其中OCR识别技术更是核心环节。二、多模态文件处理的完整解决方案流程一套面向Java企业的多模态文件处理方案，需要实现从数据接入到业务赋能的全链路闭环，其核心流程可分为五个步骤： 1. 智能解析与处理这一环节依托底层AI能力，完成多模态数据的解析：￮调用OCR识别模块，对图片、扫描件进行文字提取与结构化处理；￮启动音频转写与视频帧分析，提取音频中的文字内容和视频中的关键画面信息在这一流程中，JBoltAI的技术架构提供了底层支撑，其模型和数据能力层整合了多模态处理与OCR识别能力，核心服务层通过AI接口注册中心、数据应用调度中心实现任务的高效调度，最终在业务应用层落地为各类场景化服务窗口结语从内容提取到结构化处理，多模态文件处理与OCR识别技术正在成为Java企业智能化升级的关键抓手。
19910编辑于 2026-02-06
agent多模态学习
二、多模态 Agent 的整体架构一个完整的多模态 Agent 系统通常包含以下层次，其数据流如下：用户多模态输入 → 多模态感知层 → 意图理解与规划层 → Agent 协作层 → 工具/环境交互层 → 反馈与优化层 → 多模态输出 2.1 多模态感知层 (Multimodal Perception Layer) 作为系统的“感官”，负责将原始的多模态输入转换为结构化的特征向量。四、多模态意图理解与任务规划 4.1 多模态意图识别多模态意图识别旨在从用户的文本、图像、语音等多种输入中，准确判断其核心需求。多模态分类模型：训练一个分类器，输入为多模态特征，输出为意图标签。 LLM 直接判断：利用 GPT-4V 等具备视觉能力的模型，直接分析多模态输入并输出意图。七、多模态内容生成 7.1 文本生成基于融合后的多模态上下文，LLM 可以生成更精准、丰富的文本回复。
72710编辑于 2026-01-15
来自专栏CSDN社区搬运
多模态COGMEN详解
在本文中，我们提出了基于 COntex- tualized Graph Neural Network的多模态情感识别COGMEN）系统，该系统利用了本地信息（即说话人之间的内/外依赖性）和全局信息（上下文 “iemocap_4” --modalities=“atv” 部署方式下载我训练好模型，以及数据集，附件里有data，modelcheckpoint文件夹，分别替换代码中的文件夹即可，我对每个单独的模态都有训练
36410编辑于 2024-12-05
【多模态大模型】
多模态大模型的核心能力多模态大模型通过融合视觉、听觉、文本等多维度数据实现综合理解与生成。典型应用包括：图像到文本：识别图片内容并生成描述、广告文案或诗歌。跨模态检索：根据文本搜索相关图像/视频，或反之。代表模型如GPT-4V（视觉增强版）、通义千问多模态版、文心一言（ERNIE-ViLG）均支持此类任务。多模态对齐：模型将图像特征与文本语义空间对齐，生成候选描述。输出优化：通过强化学习调整生成文本的流畅性与吸引力。模型训练与优化要点数据准备：需对齐的多模态数据集（如COCO-Captions、AudioSet）。多模态大模型的应用需结合具体场景调整输入预处理与后处理逻辑，以达到最佳效果。
49910编辑于 2026-01-20
来自专栏多模态视频理解
多模态算法综述
在UCF101数据集上达到了87%的准确率图片（2）Beyond Short Snippets: Deep Networks for Video Classification，尝试了多种多帧帧见融合策略如自注意力至此视频理解算法演进到了Transformer的自监督网络架构，Transformer有两个优势，（1）更强的网络表征能力，（2）更容易设计自监督的训练任务，从而可以更有效的利用无标注数据，同时也更加注重多模态的内容理解 Vision-language Understanding with Contrastive Learning图片ALBEF包含一个图像编码器（ViT-B/16），一个文本编码器（BERT的前6层），以及一个多模态编码器、多模态预训练方面提供大量的帮助，也给后来的文章提供了崭新的思路BLIP（Bootstrapping Language-Image Pre-training for Unified Vision-Language BLIP采用了判断-生成任务的MED，可以作为单模态编码器，基于图像的文本编码器解码器采用了CapFilt的训练方法，降低噪声图文pair对训练造成的影响图片Mult-streamMult-stream
3.2K30编辑于 2022-07-12
来自专栏一点人工一点智能
多模态认知计算
进而，根据机器对多模态信息的认知模式，从多模态关联，跨模态生成和多模态协同这三个方面对现有方法进行了梳理与总结，系统地分析了其中的关键问题与解决方案。作为多模态认知计算的三条主线，多模态关联，跨模态生成和多模态协同是提升机器认知能力的有效途径，已成为国内外科研人员密切关注的研究热点。本文的组织框架如下：第二节，介绍了多模态关联任务的发展现状，分为多模态对齐，多模态感知和多模态检索三个部分，并进行分析与讨论；第三节，介绍了跨模态生成任务中的跨模态合成和跨模态转换方法，并进行分析与讨论本节从多模态对齐，多模态关联和多模态检索三方面阐述多模态关联相关工作。其中，多模态对齐是一类基础性需求，如图像区域内容和文字词汇的语义对齐，视觉唇部运动与语音声素之间的时间对齐等。人类可以轻松自如地对视，听，嗅，味，触等多模态感知进行归纳融合，并进行联合演绎，以做不同的决策和动作。在多模态认知计算中，多模态协同是指协调两个或者两个以上的模态数据，互相配合完成多模态任务。
98830编辑于 2022-12-27
来自专栏大模型应用
大模型应用：多模态图文精准识别：基于本地化OCR模型应用实践.78
一、引言在OCR技术从传统字符匹配向大模型多模态融合演进的当下，图片理解作为多模态技术的核心支柱，其重要性愈发凸显。、多模态 OCR 核心工作原理 Qwen2-VL-OCR-2B-Instruct作为视觉 - 语言多模态大模型，其OCR识别逻辑与传统 OCR、单纯的大模型OCR有本质区别，核心是“视觉感知多模态OCR文字识别示例基于多模态大模型（Qwen2-VL）实现高质量 OCR 文字识别，支持中文、英文、混合排版，并保留原始格式。加载多模态处理器与模型 --------------------------print("="*60)print("⚙️ 正在加载多模态处理器与Qwen2-VL-OCR-2B模型...")try: 六、总结今天我们基于本地OCR模型构建了一个可直接落地的轻量多模态 OCR 智能体，这款模型的核心价值在于将多模态大模型的语言理解能力与 OCR 的视觉识别能力深度融合，既解决了传统 OCR
53533编辑于 2026-04-16
来自专栏素质云笔记
多模态＋Recorder︱多模态循环网络的图像文本互匹配
为了验证提出的选择式多模态循环神经网络的有效性，我们测试了该模型衍生出的多种网络结构，并在两个公开多模态数据库(Flickr30k和Microsoft COCO)上与当前最好方法进行了对比。所提出的选择式多模态循环网络是一个动态模型，在每一时间步，它利用基于上下文的多模态注意机制选择图像文本中语义上相同的目标和词语，并计算其相似性作为图像文本的局部相似性，然后进行序列化融合得到全局相似性。考虑到草图与自然图像可能存在多视角的特征表达，且不同的视角作用差异较大，我们提出了一种基于视角选择的多视角跨模态匹配算法。我们在两个经典的细粒度草图-图像数据集上进行了大量的实验，结果表明所提出的方法可以有效利用多模态多视角特性并提升检索性能。多模态搜索网络上充斥着来自不同数据源的多模态多媒体数据；因此，亟需能够适应各种模态的信息检索系统，例如，在搜索“Dunkirk”电影时，应返回影评的相关文本数据、包含相关视频片段的视频数据、以及相关音频数据
2.9K20发布于 2019-05-26

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

20：GLM-OCR 深度解析：轻量级多模态OCR的技术突破

腾讯优图多模态OCR大模型技术概览

腾讯多模态OCR大模型最新技术演进：没有最强OCR，只有无限进化！

Java做人工智能：JBoltAI框架多模态与OCR技术解度

基于OCR文本行的多模态图注意力表格结构识别

MiniCPM-V 系列模型在多模态文档 RAG 中的应用：无需OCR的高效多模态文档检索与问答系统

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响

当开源 OCR 革命撞上多模态成本困局：我们如何用 Gateone.ai 把 DeepSeek-OCR 变成“印钞机”

鹅厂多模态OCR大模型技术演进与商业化应用概要

腾讯多模态 OCR 大模型：技术演进、核心能力与商业化应用概要

腾讯发表多模态综述，什么是多模态大模型

多模态文件处理与OCR识别：Java企业智能化升级的关键抓手

agent多模态学习

多模态COGMEN详解

【多模态大模型】

多模态算法综述

多模态认知计算

大模型应用：多模态图文精准识别：基于本地化OCR模型应用实践.78

多模态＋Recorder︱多模态循环网络的图像文本互匹配

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐