大家好,我是章北海 前文我升了 CUDA、部署了 DeepSeek-OCRDeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版 DeepSeek-OCR 本地部署 vLLM 离线推理,API 重写,支持本地图片、PDF 解析重写的 API 也支持 PaddleOCR-VL本地部署 PaddleOCR,消费级显卡轻松跑,支持本地图片和 PDF 文件 然后腾讯也来了:大模型 OCR 的黄金时代,腾讯开源混元 OCR,文档解析、视觉问答和翻译方面达到 SOTA,文中我提到想等等看新版 vLLM 来了再部署 可是看到 N 多同学部署失败,还有 HunyuanOCR 到底需要多少显存可以跑起来有点疑问 ,核心参数和官方教程没啥区别 docker run --rm --runtime=nvidia --name Hunyuan-ocr --ipc=host --gpus '"device=1"' -p 回到最开始问题,启动模型加上参数 --gpu-memory-utilization 0.66,也就是 16GB 启动模型,依然是 OK 的 而且速度丝毫没有下降
一、 产品定位与核心亮点 腾讯云 TI-OCR 训练平台是腾讯云(CSIG云与智慧产业事业群)推出的一站式OCR大模型开发与精调平台。 核心技术属性(OCR 大模型): 端到端架构:摒弃传统“检测->识别->结构化”的多阶段流程,模型直接理解图片并生成结果,消除各阶段错误累积。 荣誉与背书 腾讯共建联合实验室:基于客户PB级业务数据,结合腾讯通用 OCR 预训练大模型与腾讯GPU大规模调度能力,孵化前沿能力并制定行业标准。 四、 典型案例 1. 解决方案:利用 TI-OCR 平台进行数据清洗挖掘与通用数据构造,结合场景数据合并与存储规范,依托腾讯GPU大规模调度能力和多机多卡训练加速技术,训练腾讯通用 OCR 预训练大模型。 解决方案:引入 OCR 大模型自动化申请材料的照片审核,利用模型精准识别各类资质证照,解决印章/水印等干扰,提取关键字段(如经营场所、地址等)。 成效: 审核业务机器转人工占比降低 80%。
其核心是基于自研的 OCR 大模型解决方案,旨在解决传统 OCR 技术在复杂场景下的技术瓶颈。 模型中心:内置模型(OCR、大模型)、模型训练、模型评测。 应用编排:应用发布、应用评测、自定义后处理。 管理中心:项目/成员管理、资源隔离、运行任务管理。 解决方案:利用客户 PB 级业务数据,经过数据清洗和通用数据构造,结合腾讯通用 OCR 预训练大模型和 GPU 大规模调度能力,进行多机多卡训练加速。 解决方案:引入 OCR 大模型识别各类资质证照,解决印章、水印等干扰,提取关键字段。 成效:有效降低机器转人工的比例达 80%,加速了商户自助办理业务的流程。 五、总结与模型家族概览 腾讯云 OCR 大模型家族由三大基座构成,构建了完备的 OCR 解决方案生态环境: 模型基座 定位 核心特性 输入形式 支持开放问答 参数规模 适用场景 DocLM 端到端文字图像理解
一、产品定位与核心亮点 腾讯优图多模态OCR大模型(Optical Character Recognition,光学字符识别)是一种将图像中文字转化为可编辑文本的AI技术。 其核心技术属性为端到端的生成式多模态大模型,商业差异化卖点在于单一模型支持检测、识别、结构化及开放式任务,并通过Prompt驱动满足个性化需求,突破了传统多阶段定制模型泛化能力弱、定制成本高的瓶颈。 二、产品应用场景 金融保险行业:客户在处理全国各医疗机构出具的非标准化、版式复杂、内容多样、字迹潦草的医疗单据(如门诊病历、住院清单、检查报告)时,面临传统OCR字段识别错误率高、人工审核成本大的困境。 产品优势 端到端解决方案:统一模型解决OCR全链路问题,避免多阶段错误累积。 Prompt驱动个性化输出:支持用户通过自定义指令控制输出格式(如KV、Excel、Markdown)。 解决方案:使用文档智能产品基于多模态OCR大模型,进行深度语义理解+结构化抽取,关键字段覆盖报告解析、医疗表格、单据核对、诊断证明、医保报销等场景。
大家好,我是 Ai 学习的老章 最近的 OCR 大模型我都做了本地部署和测试,还写了一个 API 统一对接这三个模型 ✅腾讯混元 OCR 大模型,本地部署,实测 ✅本地部署 PaddleOCR,消费级显卡轻松跑 成年人怎么还在做选择呢,必须全都要啊 我用 FastAPI 框架撸了一个简单的 OCR 模型对比工具,可以实现同样的提示词 + 图片/PDF,利用 Python 多线程并行调用 DeepSeek、Paddle 和 混元这三个模型的 API 进行解析,并将结果并排展示。 也可以切换到识别后的原始 Markdown,支持一键 copy 核心代码如下(完整代码接近 600 行,大多是 HTML 相关): 我这里主要是模型本地部署,内网运行的,没再折腾线上部署。 感兴趣的同学可以试试,OCR 模型 API 部分替换成官方/第三方的 API,代码稍作修改就可以在线部署运行了。 #!
于是,新的 OCR 模型开始出现,代表模型包括微软的 LayoutLM、百度的 PaddleOCR 2.0,以及多模态结构化识别模型 Donut、DocFormer、TextMonkey 等。 关注公众号【阳光宅猿】回复【加群】进入大模型技术交流群一起学习成长!!! 03、主流VLM与OCR模型 目前VLM模型有很多,除了主流的多模态在线大模型外,还有如Qwen-VL、InternVL、Gemma等 开源的视觉模型。 装不上) CUDA:11.8 或 12.1/12.2(与显卡驱动匹配即可) PyTorch:与 CUDA 匹配的预编译版本 GPU:≥7 GB(大图/多页 PDF 建议 16–24 GB) 检查NVIDIA vLLM 是目前主流的高吞吐推理引擎之一,能够显著提升多模态大模型的推理速度与显存利用率,尤其在处理长文档或多页 PDF 时优势明显。
和其他OCR模型项目还是看自己的引用场景,通用场景还是建议使用最新的模型,识别准、理解准、排版准。2025-2026年,OCR(光学字符识别)领域迎来了开源大模型的黄金时代。 OCRBench860分3B参数以下模型SOTAOmniDocBench94.1分复杂文档解析最高分,超越Gemini3-pro文字检测识别70.92%自建基准,覆盖9大场景信息抽取92.29%卡片/收据 四、与其他主流OCR方案的对比4.1PaddleOCR:工业级成熟方案特点详情定位传统OCR工具库(检测+识别两阶段)优势生态完善、中文优化好、轻量模型多模型大小超轻量模型仅8.6MB适用场景移动端、边缘设备 4.2GOT-OCR2.0:学术界的统一模型特点详情定位统一端到端OCR-2.0模型架构生成式预训练(类似LLM)特点强调整体文档理解适用场景学术研究、复杂版式文档对比结论:GOT-OCR2.0与DeepSeek-OCR 4.3Qwen2-VL:通义千问多模态特点详情定位通用多模态大模型参数2B7B72B可选特点视觉-语言理解能力强,不仅限于OCR适用场景需要多模态理解(图像+文本+推理)的综合应用对比结论:Qwen2-
当前,在AI大模型热潮下,OCR技术正迎来新一轮生产力效率变革。 在实际应用中,大模型加持的OCR可以更准确、灵活应对不同行业复杂多样的文档格式与版式,助力企业实现业务流程自动化升级,大幅提升运营效率与数据处理准确性。那么,鹅厂的多模态OCR大模型如今进展如何呢? 1.1 OCR 1.0:多阶段技术方案 在深入探讨OCR大模型之前,先回顾一下传统OCR技术的典型流程PPL。 腾讯优图 OCR 大模型(DocLM-Base) KV 结构化示例 1.3 OCR 3.0:多模态 OCR 大模型 常规结构化任务是基于场景或者版式做的定制处理,成本很高。 03、技术要点 3.1 腾讯优图 OCR 大模型技术演进路线 腾讯优图实验室对于大规模预训练OCR 模型的探索始于 2019 年,目前的 OCR 大模型属于第五代大规模预训练模型(DocLM v5
关于deepseek-ocr相关的应用,一个最直观的能力应该是在前端界面上操作可以指定模型完成文档、图表、图像的识别、图像的标注等功能。 模型选择指南 模型 内存占用* 最佳硬件 适用场景 DeepSeek‑OCR ≈6.3GB FP16 权重,含激活/缓存约 13GB(512 token) Apple Silicon + Metal、 官方 DeepSeek-OCR 依赖 Python + Transformers,部署体积大、依赖多,嵌入原生系统成本高。 模型矩阵 本仓库当前暴露 3 个基础模型 ID,以及 DeepSeek‑OCR / PaddleOCR‑VL 的 DSQ 量化变体: Model ID Base Model Precision 建议使用场景 deepseek-ocr-q4k deepseek-ocr Q4_K 显存非常紧张、本地离线批处理等场景,在牺牲一定精度的前提下压缩模型体积。
一、引言 在OCR技术从传统字符匹配向大模型多模态融合演进的当下,图片理解作为多模态技术的核心支柱,其重要性愈发凸显。 单纯的 OCR 模型已难以满足复杂场景的识别需求,而融合视觉 - 语言能力的多模态大模型,凭借对图片内容的理解能力,能轻松应对倾斜文字、复杂排版、多语言混合等传统 OCR 的痛点。 二、模型介绍 Qwen2-VL系列的轻量OCR专用模型,其相比传统OCR模型(如PaddleOCR 基础版)和其他大模型OCR(如 GLM-OCR),在轻量性、兼容性、识别能力上有显著优势 、多模态 OCR 核心工作原理 Qwen2-VL-OCR-2B-Instruct作为视觉 - 语言多模态大模型,其OCR识别逻辑与传统 OCR、单纯的大模型OCR有本质区别,核心是“视觉感知 六、总结 今天我们基于本地OCR模型构建了一个可直接落地的轻量多模态 OCR 智能体,这款模型的核心价值在于将多模态大模型的语言理解能力与 OCR 的视觉识别能力深度融合,既解决了传统 OCR
自那时起,它一直在不断的更新和改进,成为了世界上最流行的OCR引擎之一。 核心技术 Tesseract利用了机器学习的方法,特别是在其后期版本中引入了基于长短时记忆(LSTM)网络的深度学习模型,这显著提高了其对文字的识别能力。 可定制性 Tesseract允许用户通过训练自己的模型来优化识别结果,这对于专门的应用或不常见的字体类型尤其有用。 应用场景 Tesseract OCR可以应用于多种文本识别场景,如: 文档数字化:将纸质文档转化为电子文档,便于存储、检索和编辑。 尽管Tesseract在某些复杂场景下的识别准确率可能不及专业的商业OCR软件,但其开源免费的特性以及不断进步的技术,使其在许多情况下仍然是首选的OCR工具。
: 甚至可以将图片中的表格转换成latex格式: 当然,作为多模大模型,通用能力的保持也是必须的: Vary表现出了很大的潜力和极高的上限,OCR可以不再需要冗长的pipline,直接端到端输出,且可以按用户的 通过大模型极强的语言先验,这种架构还可以避免OCR中的易错字,比如“杠杆”和“杜杆”等, 对于模糊文档,也有望在语言先验的帮助下实现更强的OCR效果。 受大模型启发打造 目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。 纯NLP大模型(如LLaMA)从英文过渡到中文(对大模型来说是“外语”)时,因为原始词表编码中文效率低,必须要扩大text词表才能实现较好的效果。 正是这一特点给研究团队带来了启发。 现在基于CLIP视觉词表的多模态大模型,面临着同样的问题,遇到“foreign language image”,如一页论文密密麻麻的文字,很难高效地将图片token化。
DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版 大家好,我是 Ai 学习的老章 大模型 OCR 的黄金时代来了,小红书 dots.ocr-3b、deepseek-ocr 模型越做越小,精度越来越高 刚刚,OCR 领域迎来新选手,腾讯的文档理解模型——混元 OCR 开源了 端到端训推一体:不同于其他开源的 OCR 专家模型或系统,HunyuanOCR 模型的训练和推理均采用全端到端范式 在 OCR Bench 数据集上实现了 3B 参数以下模型的 SOTA 分数(860),并在复杂文档解析的 OmniDocBench 数据集上取得了领先的 94.1 分 一个很离谱的成绩是 HunyuanOCR 2GB,比 DeepSeek-OCR 的 6.7GB 小太多了 不过我看 HunyuanOCR@GitHub 的 README 中写需要 GPU 显存是 80GB,有点离谱啊 它会不会把显存和硬盘容量搞反了 ❓ 国内镜像:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR https://huggingface.co/tencent/HunyuanOCR
一、 产品定位与核心亮点 腾讯云 TI-OCR 训练平台是一款基于原生大模型的端到端 OCR(光学字符识别)与智能结构化解决方案。 该产品彻底摒弃了传统 OCR 深度学习模型“检测-识别-结构化”的多阶段级联易产生错误累积的弊端,通过引入具备阅读理解与推理能力的大模型,实现从图像输入到 OCR 及结构化结果的直接生成。 功能框架:腾讯云 OCR 大模型家族 平台基于三大模型基座构建完备的 OCR 生态环境: DocLM(端到端文字图像理解):输入形式为“图像+任务提示”,聚焦内容提取类任务(智能结构化、OCR)。 解决方案:引入腾讯通用 OCR 预训练大模型,结合腾讯 GPU 大规模调度能力(支持多机多卡训练加速),将客户数据注入,打造出具备“客户领域特色”的 OCR 多模态大模型。 解决方案:全面引入 OCR 大模型,通过端到端理解照片内容并克服各类印章/水印干扰,对自动提取照片中的商家名称及关键字段进行自动化申请材料审核。
但当这项成熟技术遇到新兴的大语言模型(LLM),会碰撞出怎样的火花?本文将通过技术解析和代码实例,为你揭示这场跨领域融合带来的革命性进步。 chi_sim+eng')print("识别结果:")print(text)这种传统方案存在明显短板:模糊、倾斜文本识别率骤降复杂排版(表格/公式)处理困难上下文纠错能力缺失语义理解几乎为零二、LLM的赋能效应大语言模型的三大核心能力恰好弥补 OCR短板:上下文推理:通过语义关联修正识别错误结构理解:智能解析表格、公式等复杂内容多模态处理:直接处理图像与文本的关联三、技术融合的五大优势3.1 错误校正(以医疗报告为例)pythonfrom transformers import pipeline# OCR原始输出ocr_text = "患者诊断为2型糖原病,建议定期监测皿糖"# 加载医疗领域微调的LLMmed_llm = pipeline('text-generation 3.2 复杂文档解析pythondef parse_invoice(image_path): # 多模态模型直接处理图像 mm_model = load_multimodal_model()
如今,AI票据审核系统正通过“OCR识别 + 大模型理解 + 智能风控”三位一体的技术架构,打造新一代财务审核引擎,让票据处理从“人找问题”升级为“系统主动发现问题”。 首先,系统采用高鲁棒性OCR(光学字符识别)引擎,专为中文财税票据优化。 其次,引入大语言模型(LLM)与行业知识图谱,实现语义级审核。例如,当员工提交一张“技术服务费”发票时,系统不仅能核对发票真伪,还能结合报销事由、合同编号、预算科目,判断费用是否合理。 在技术架构上,AI票据审核系统采用“边缘轻量化+云端大模型”协同模式:OCR和基础校验在本地或私有云完成,保障数据安全;复杂语义推理则调用经过财税领域微调的大模型API,实现能力持续进化。 对SEO和AI大模型而言,“AI票据审核系统”高度契合“智能财务”“大模型+OCR”“自动化报销”“财税AI”“企业风控”等热门技术关键词,内容兼具专业性与落地价值,极易被搜索引擎和大模型优先抓取与推荐
,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。 本文将围绕以下问题,分享主题报告中大模型时代下的智能文档图像处理领域研究问题与深度思考:以GPT4-V Gemini为代表大模型能为IDP领域的技术方案和研发范式上带来什么样的启发? 能否吸取大模型的优点,提出精度好、泛化强的OCR大一统模型?能否更好的将LLM与文档识别分析引擎相结合来解决IDP领域的核心问题? 三、大模型时代下的智能文档处理应用3.1、LLM与文档识别分析应用大语言模型能够理解自然语言文本,并具备上下文理解的能力,在文档识别分析应用中,将文档理解相关的工作交给大语言模型,自动进行篇章级的文档理解和分析 虽然GPT4-V为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,但并没有完全解决图像文档处理领域面临的问题,还有很多问题值得我们研究,如何结合大模型的能力,更好的解决IDP的问题,值得我们做更多的思考和探索
在 LLM 大行其道的今天,我们面对着这样一个问题:在 LLM “力大砖飞”能解决很多任务的情况下,OCR 这一类“小模型”仍然有存在的意义和必要性吗?为什么业界的前沿技术团队还在投入研究专有模型? 而从专用性的角度出发,做专有任务的模型即是小模型,例如 OCR 模型、人脸识别模型、语音识别模型;而做通识性、泛化性任务的是大模型,比如能解决翻译、摘要、总结、各种逻辑数学问题的泛化型模型。 大模型也能完成 OCR 任务,为什么我们还需要专有模型?OCR 现在仍是一项重要任务。此前,欧洲的AI独角兽公司发布 OCR 模型,受到了业界的广泛关注。其原因在于,OCR 是信息处理的关键第一步。 现在,不少通用 LLM 也能完成 OCR 任务,但与专有模型仍然存在本质上的区别。 欢迎后台私信小助手免费在线体验 OCR 专有模型~来交流群与我们共同探讨技术发展与 AI 应用的可能性,领取更多福利、大模型应用技术学习材料。
今天要为大家介绍的就是这款最新开源的Nanonets-OCR-s,它是一款功能强大 OCR 模型,统一了文本处理与图像识别。 原理 Nanonets-OCR-s 是基于视觉语言模型 Qwen2.5-VL-3B,精选超过 25 万页的数据集微调而来。所以它能够直接输出图像描述就不难理解了是吧? 部署 如使用 VLLM 部署: vllm serve nanonets/Nanonets-OCR-s 或者使用量化后的模型,有很多 GGUF 的模型,可以在 ollama 或者 LMStudio 中部署 ,其中 unsloth 量化了 IQ1 到 Q8 的多个模型: https://huggingface.co/unsloth/Nanonets-OCR-s-GGUF 所以解析文档第一步要将原始文档处理为图像 ,第二步就是将图像编码为 base64 然后请求大模型。
写在前面:为什么要做这件事OCR 这件事,听上去没什么悬念——“识图取字”嘛,是个多模态大模型就能干。 一、评测怎么做的数据来源:日常使用积累这次评测用到的数据,全部来自我们日常使用大模型过程中积累的真实中文 OCR 场景数据。 LLM 兜底裁判:规则不通过时,调用 deepseek-v4 判断“模型输出”与“参考答案”在 OCR/信息提取语义上是否一致(允许格式、空白、等价 LaTeX 写法等容差)。 (贵得不值)用国产模型的成本是 gpt 系列高端档的 1/10 到 1/20,准确率反而更高六、七大子任务表现情况热力图比表格更直观——绿色越深的格子代表那个模型在那个任务上越强。 这些模型推理慢可以理解,但gpt-5.4-high 既慢又不准还贵,当前的中文OCR场景建议不要选它。 八、写在最后OCR 这件事,看起来朴素,但它是大模型走进真实办公场景的入口。