首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • docling,强大的文档解析转换工具,开源免费!

    /docling? Docling的出现让这一过程缩短到几分钟…" 安装和使用 因为本人太菜,安装 过程可谓是大费周章,它本来是容易的 说明一下:如果你也是根据官网中的pip install docling进行安装,大致可能出现一些问题如下 python=3.11 # 激活 conda activate docling # 下载 pip install typer==0.9.0 click==8.1.7 pip install docling 按照上面的执行,应该就不会出现问题了,最后执行一下docling --help,如果不报错就没问题了。 docling .

    5.1K31编辑于 2025-05-31
  • 来自专栏大侠之运维

    种文档格式(如PDF、DOCX、PPTX等)转换为markdown或json

    特点Docling 拥有众多引人注目的特点,使其在众多文档处理工具中脱颖而出:多格式支持:Docling 支持多种文档格式的读取,用户可以轻松处理不同类型的文档,无需担心格式兼容性问题。 如何快速开始要开始使用 Docling,用户只需简单几步即可完成安装和初步使用。以下是快速入门的步骤:安装 Docling:用户可以通过 Python 的包管理器 pip 安装 Docling。 在终端中输入以下命令即可完成安装:安装 Docling:用户可以通过 Python 的包管理器 pip 安装 Docling。 提供了丰富的功能和选项,用户可以通过查阅官方文档,了解更多高级功能和使用技巧,充分发挥 Docling 的强大能力。 Docling是一个结合技术与学术的创新典范,它的诞生为语言学研究带来了前所未有的便利与突破。无论你是一名学者、开发者,还是对语言技术充满好奇的探索者,Docling都为你提供了无限可能。

    2.5K10编辑于 2024-11-25
  • 来自专栏HuggingFists

    HuggingFists: 无代码处理复杂PDF

    于是,HuggingFists整合了Docling技术,帮助使用者应对复杂PDF的解析场景。选用Docling还有一个重要的原因,就是其部分转换功能可以在纯CPU的环境中运行完成。 环境中按照如下步骤安装Docling。 执行su root命令,输入密码12345678,切换到root用户下在oyez系统中运行pip install docling安装docling。如果你的机器能够翻墙,那么打开翻墙通道,安装完成。 pwd=1234”的包到当前目录,解压Docling.zip包。该包中包含Docling运行所需的部分模型。对于无法翻墙的用户,运行时无法下载到对应模型。故而无法正常运行Docling。 结语 Docling内置了很多功能配置项,但是Docling算子只封装了其中的一部分。如果希望调整和配置更多的配置项,可以试着去修改算子的Python脚本片段。

    50400编辑于 2025-07-07
  • 来自专栏翩翩白衣少年

    开源本地文档翻译神器,完美保留原格式,还能自动生成术语表(带一键安装包)

    • PDF表格、公式、代码识别:凭借docling、minerupdf解析引擎实现对学术论文中经常出现的表格、公式、代码的识别与翻译 • json翻译:支持通过json路径(jsonpath-ng语法规范 • 小体积、多平台懒人包支持:不到40M的windows、mac懒人包(不使用docling本地解析pdf的版本)。 DocuTranslate_full: 完整版,内置 docling 本地PDF解析引擎,需要本地解析pdf选这个版本。 pip安装 # 基础安装 pip install docutranslate # 如需使用 docling 本地解析PDF pip install docutranslate[docling] 启动

    1.1K10编辑于 2026-03-16
  • 征服PDF:超越纯文本的文档理解技术

    在实践示例中,将使用spaCy、新的Docling库以及布局分析模型。 Docling链接:用于处理PDF、Word文档及类似格式的开源库和模型,包含布局分析、OCR和表格结构识别功能。 spaCy Layout链接:用于使用spaCy处理PDF、Word文档等的开源库和插件,由Docling驱动。 Docling技术报告链接:Auer等人,2024年。TableFormer:使用Transformers进行表格结构理解链接:Nassar等人,2022年。

    14910编辑于 2026-01-24
  • 来自专栏福大大架构师每日一题

    agno v2.5.10 更新解析:并行搜索、全链路可观测性、多平台通信接口全面进化

    四、Docling Reader:文档处理能力全面增强 1. 集成 Docling 文档处理库 本次版本新增 Docling Reader,作为全新的文档读取与解析组件。 对 Agent 与 Workflow 的意义 Docling Reader 的加入,使得: • Agent 可以更高效地处理企业文档 • 文档类 Workflow 的可扩展性显著提升 • 为后续检索增强生成与知识问答奠定基础 并不是一次简单的功能叠加,而是一次 面向生产、面向多平台、面向复杂 Agent 系统 的系统级升级: • 并行搜索与检索让 Agent 更快、更准 • MLflow 可观测性让 Agent 更可控、更可信 • Docling

    17110编辑于 2026-03-31
  • 来自专栏机器学习与统计学

    把技术书变成 Claude Code 随身 Skills,最大价值是内部资料 Skills 化

    PDF 提取分两个模式: text 模式:用 pdftotext → PyPDF2 → pdfminer 的降级链,秒级完成,适合纯文字书 technical 模式:用 Docling 做布局感知提取, 保留表格和代码块的 Markdown 格式,每页约 1.5 秒 官方给了一个 103 页技术书的对比数据: 方法 耗时 Token 数 表格数 代码块数 pdftotext 0.1s 27K 0 0 Docling 164s 27K (+1.2%) 48 36 Token 数差不多,但 Docling 保留了 48 个表格和 36 个代码块的结构。 技术书里表格和代码是核心信息载体,丢了就废了大半,所以技术类书籍走 Docling 是值得的。 编译阶段的流程: 文档文件 │ ▼ 用户选择:技术书 or 纯文字书 │ ├── 技术 → Docling (保留表格和代码) └── 文字 → pdftotext 降级链 (快速)

    17910编辑于 2026-06-01
  • 来自专栏RAG

    收藏!RAG核心工具大全: 7大解析工具+向量模型+数据库+检索排序

    Docling:IBM的企业级多模态文档理解框架GitHub:https://github.com/docling-project/docling官方文档:https://docling-project.github.io /docling/HuggingFace:https://huggingface.co/ibm-granite/granite-docling-258M适用场景:AgenticRAG(需要理解文档结构供 Docling不仅仅是一个解析器,定义了一种统一的文档对象模型,旨在为AgenticRAG(代理式RAG)提供结构化支撑。 在构建复杂RAGAgent时,Docling可作为工具被动态调用,按用户意图提取指定信息。 层级切块:利用Docling或MinerU输出的结构化信息(Header,Section),先按章节切大块,再在大块内切小块。

    1.1K11编辑于 2026-02-13
  • 来自专栏自然语言处理

    6 大 RAG 知识库PDF文档处理神器对比,谁才是你的最佳选择?

    ✅ 企业级安全合规,支持 API 和图形界面 ❌ 依赖 GPU,表格处理速度较慢,配置复杂 Docling 项目地址:https://github.com/DS4SD/docling 技术架构:

    4.6K00编辑于 2025-03-02
  • 开源AI工具升级加速LLM与扩散模型在NVIDIA RTX PC的性能

    对于检索增强生成,某中心与Docling建立了合作——这是一个用于将文档摄取、分析和处理成机器可理解语言以供检索增强生成管道使用的软件包。 Docling针对RTX PC和高性能计算系统进行了优化,与CPU相比可提供4倍的性能。 使用Docling有两种方式:传统OCR管道:这是一个库和模型的管道,通过PyTorch-CUDA在RTX上加速。

    40510编辑于 2026-01-30
  • 来自专栏福大大架构师每日一题

    RAGFlow v0.25.0:全新发布,覆盖解析管道、数据源、Agent、语言界面、模型支持与安全修复的全面升级

    double extraction 修复 • html heading mapping 修正 • image PDF in ingestion pipeline 修复 • epub parsing 支持 • Docling parser return type hint 修复 • external Docling server via DOCLING_SERVER_URL 支持 • respect chunk_token_num for MinerU/docling/paddleocr parsers • fixed parsing status recovery after transient errors • document

    60410编辑于 2026-04-28
  • 来自专栏福大大架构师每日一题

    RAGFlow v0.22.0 发布:数据源同步、变量聚合、全新管理界面与多项重大更新

    • 解析管线新增 Docling 文档解析器。 • 新增管理 Web UI 仪表盘,用于图形化用户管理及服务状态监控。 2. 智能代理(Agent) • 支持结构化输出。 六、更新详情(包含所有改进与修复) • 新增 Docling 解析器。 • 测试文件迁移。 • 停止发布完整镜像版本。 • MinerU 与 Docling 集成。 • 修复图标替换相关问题。 • 调整代理操作表单样式。 • 更新 MinerU 设置指南。

    98110编辑于 2025-12-19
  • 来自专栏周拱壹卒

    Ilya Rice: How I Won the Enterprise RAG Challenge

    The best-performing parser for the RAG Challenge turned out to be the relatively known Docling[7]. Parser Customization Despite its excellent results, Docling lacked some essential capabilities. Apparently, Docling parses tables from PDFs well enough, the retriever finds them effectively, and the https://github.com/IlyaRice/RAG-Challenge-2/blob/main/data/erc2_set/answers_1st_place_o3-mini.json [7] Docling : https://github.com/DS4SD/docling [8] this research paper: https://arxiv.org/pdf/2402.17944 [9] tables_serialization.py

    19810编辑于 2026-03-16
  • 来自专栏四楼没电梯

    字节跳动 Dolphin vs Mineru:哪个才是你的文档解析最优解?

    项目数据预处理和知识库构建 性能实测亮点 Dolphin 页面级、元素级解析准确率高 采用 HAP 技术,多个元素并行处理,效率高于传统 pipeline 更适合 GPU 高性能部署场景 ⚙️ Mineru 在 Docling

    4.2K10编辑于 2025-05-29
  • 使用spaCy处理PDF和Word文档的技术指南

    spaCy Layout:使用spaCy处理PDF、Word文档等该插件与Docling集成,将PDF、Word文档和其他输入格式的结构化处理引入spaCy管道。

    25010编辑于 2025-10-30
  • 来自专栏机器学习与统计学

    RAG 工程里最大的痛点解决了,已开源

    /cocoindex.db" > .env pip install -U cocoindex docling 写一个 main.py,把 PDF 转 Markdown 的逻辑声明出来: import cocoindex.connectors import localfs from cocoindex.resources.file import PatternFilePathMatcher from docling.document_converter

    23510编辑于 2026-05-08
  • 来自专栏Datawhale专栏

    LLM 工程师工具箱:120+大模型库全攻略!

    Docling Docling parses documents and exports them to the desired format with ease and speed.

    90400编辑于 2025-04-04
  • 来自专栏文档开发

    文档开发组件Aspose 26.1更新:兼容.net 10、修复显示数据问题

    在文档转换能力方面,引入了 Docling JSON 导出格式,允许 Word 文档按层次结构序列化为 JSON。该输出形式便于在需要对文档内部结构进行深度检索、分析或二次处理的场景中使用。2.

    22810编辑于 2026-01-20
  • 2026 RAG 全景:从大模型基座到 Agent 记忆中枢——万字长文吃透全栈落地

    里的表格、多栏布局、图片处理 扫描版 PDF 需要 OCR Word、PPT、网页等多格式统一处理 工具选型: 工具 特点 适用场景 PyMuPDF 轻量快速,纯文本提取准确 文字版 PDF,快速上手 Docling 附录:核心工具速查表 开源工具 类别 工具 链接 文档解析 Docling github.com/DS4SD/docling 文档解析 Unstructured github.com/Unstructured-IO

    4.9K35编辑于 2026-04-14
  • 来自专栏云云众生s

    RamaLama项目将容器和AI结合在一起

    接下来,我们正在积极帮助用户使用 Docling 和 Llama Stack 等开源工具将其静态文档转换为检索增强生成 (RAG) 数据库。

    59210编辑于 2025-03-20
领券