首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GoCoding

    PDFium 渲染

    编译 PDFium 使用预编译库:https://github.com/bblanchon/pdfium-binaries 不然,参考 PDFium / README[4] 自己编译,实践步骤如下: # ://pdfium.googlesource.com/pdfium.git gclient sync cd pdfium # get deps # on linux, install additional ninja -C out/Release pdfium # pdfium_test ninja -C out/Release pdfium_test # run sample: pdf > ppm 阅读 PDFium / Getting Started[5],了解如何初始化 PDFium 及载入文档。 /pdfium.googlesource.com/pdfium/ [5]PDFium / Getting Started: https://pdfium.googlesource.com/pdfium/

    3.5K10编辑于 2021-12-06
  • 来自专栏腾讯玄武实验室的专栏

    Chrome PDFium 整数截断漏洞分析

    漏洞简介 chromium:697847 是 PDFium 里面由于 整数截断 引起的一个堆溢出漏洞(将 unsigned long 赋值给uint32),简单记录一下。 漏洞原理: PDFium 使用 zlib 的 inflate 接口解压数据; 在 zlib 中,解压后的数据的大小使用 unsigned long类型的变量 total_out来存储; PDFium 使用 uint32 类型的变量来接收 total_out 的值; 在 64 位环境中,当解压后的数据大小超过 4GB 时(即超过uint32的范围)会产生截断; 后续 PDFium 使用截断后的值分配堆块并拷贝解压后的数据 漏洞分析 2.1 崩溃信息 在 64 位 Ubuntu 上开启 AddressSanitizer 编译 PDFium,使用编译出来的 pdfium_test测试原贴提供的 PoC 文件,可以看到如下崩溃信息 #0 0x4a5dac in __asan_memcpy #1 0x8e5d80 in (anonymous namespace)::FlateUncompress() pdfium

    1.9K01发布于 2017-08-17
  • 来自专栏X#(XSharp)

    pdfium-vfp:隐藏着 Unicode 问题的部分解决方案

    它隐藏在 VFPX 的 pdfium-vfp 项目中...... Follow me,认识不一样的 VFP!

    49410编辑于 2024-12-06
  • 来自专栏DotNet NB && CloudNative

    Docnet:轻量高效的 .NET PDF 操作库

    它封装了 Google Chromium 使用的 PDF 渲染引擎 PDFium,提供了强大的 PDF 文档读取、解析、渲染等功能,并且完全支持 .NET Standard 2.0,适用于 Windows 但图像渲染示例依赖 System.Drawing.Common,在 Linux/macOS 上运行时需安装 libgdiplus: sudo apt install libgdiplus 另外,建议手动指定 PDFium 包地址:https://www.nuget.org/packages/Docnet.Core 总结 相比于 iText、PdfSharp 等传统 PDF 处理库,Docnet 更加轻量、高效,且依托于 PDFium

    70910编辑于 2025-07-17
  • 来自专栏WPF

    C#如何加载嵌入到资源的非托管dll

    Assembly.GetExecutingAssembly().Location); var dllPath = Path.Combine(folderPath, $"{nameof(Resource.pdfium File.Exists(dllPath)) File.WriteAllBytes(dllPath, Resource.pdfium); LoadDll

    1.7K20发布于 2021-05-17
  • 来自专栏深度学习与python

    Nvidia Ingest 让从文档中提取结构化信息更简单

    对于 PDF 文档,Ingest 可以使用 pdfium、Unstructured.io 或 Adobe 的内容提取服务。 . \ --task='extract:{"document_type": "pdf", "extract_method": "pdfium", "extract_text": true, "extract_images

    52300编辑于 2025-02-18
  • 来自专栏Excel催化剂

    Excel催化剂开源第31波-pdf相关功能实现及类库介绍

    这个轮子又依赖于PDFium轮子,PDFium好像分86和64两个版本。 源代码节录 直接在nuget上搜PDFium会有多个版本,用PdfiumViewer搜索,好像可以搜索到不分86和64的版本,现在用着是它,没测试过32位机器是否不会出问题。

    1.1K20发布于 2021-08-19
  • 来自专栏代码简单说

    KillerPDF:开源免费 PDF 编辑器下载,单文件仅 6MB,替代 Adobe Acrobat 的轻量神器

    KillerPDF、PDF编辑器、免费PDF编辑软件、开源PDF工具、Adobe Acrobat替代品、PDF合并工具、PDF拆分工具、PDF签名软件、PDF表单填写、Windows PDF编辑器、PDFium 会员体系复杂 而 KillerPDF 的特点非常直接: ✅ 免费开源 ✅ 本地运行 ✅ 无广告 ✅ 无账号 ✅ 无联网依赖 ✅ 支持便携版 核心功能介绍 1、PDF 阅读与渲染 项目使用 Google PDFium github.com/SteveTheKiller/KillerPDF/releases 技术架构 KillerPDF 基于: 技术 说明 C# 开发语言 .NET Framework 4.8 运行目标 PDFium

    27100编辑于 2026-06-16
  • 来自专栏翩翩白衣少年

    8.2K Star!在 GitHub 上发现一款新开源的 OCR 神器,可本地快速解析文档!

    基于 PDFium 引擎做文本提取,内置 OCR 光学字符识别,开箱即用不需要额外配置,解析结果还能保留文字的精确位置信息。 除了 PDF,还能自动处理 Word、Excel、PPT 和图片等格式。 2、超快速度,基于 PDFium LiteParse 使用 Google 的 PDFium C 库进行文本提取——这也是 Chrome 浏览器使用的 PDF 引擎。

    58320编辑于 2026-06-01
  • 来自专栏翩翩白衣少年

    OCR 界的“超级小钢炮”!LightOnOCR-2-1B 发布:1B 参数,千页成本不到 7 分钱!

    mm-processor-cache-gb 0 --no-enable-prefix-caching 代码示例: import base64 import requests import pypdfium2 as pdfium 2412.13663" pdf_data = requests.get(pdf_url).content # Open PDF and convert first page to image pdf = pdfium.PdfDocument

    38710编辑于 2026-03-16
  • 来自专栏深度学习与python

    死磕PDF技术20年:海外赚钱国内上市,码农创始人终成亿万富翁

    2014 年,谷歌开源了一个名为 PDFium 的项目,主要是为了包装到 Chrome 浏览器里去,以便开发人员能够将其纳入各种平台应用,向用户提供包括阅读、编辑、创建、管理和保护 PDF 文档的功能。 PDFium 库的重要组成部分——渲染引擎,就使用了福昕软件的 PDF 技术,这也是福昕的核心技术之一。 获得亚马逊和谷歌的背书之后,福昕软件发展明显更为顺遂。

    81520发布于 2020-09-14
  • EmbedPDF 封神!这款开源神器,让 PDF 前端集成告别折腾

    UI+高性能,体验升级 EmbedPDF的默认 Viewer 不仅颜值在线,操作体验也远超传统方案: UI设计现代简洁,支持主题配置,能轻松融入项目设计体系 操作流畅顺滑,滚动、缩放、批注无延迟 基于PDFium

    1.6K10编辑于 2026-01-22
  • 来自专栏编程进阶实战

    .NET 使用 DocNET 库快速高效的操作 PDF 文档

    它是基于 Chromium 所使用的 PDFium C++ 库开发的 .NET Standard 2.0 封装库。

    41710编辑于 2025-07-22
  • 使用spaCy处理PDF和Word文档的技术指南

    /document.pdf"# 加载并将PDF页面转换为图像pdf = pdfium.PdfDocument(DOCUMENT_PATH)page_image = pdf[2].render(scale

    26510编辑于 2025-10-30
  • 来自专栏公共互联网反网络钓鱼(APCN)

    当“我已付款两次”成为钓鱼暗号:Booking.com生态遭系统性渗透,全球酒店与旅客陷信任危机

    例如,攻击者分发一个名为AcroRd32.exe(Adobe Reader主程序)的合法签名文件,但同目录下放置恶意pdfium.dll。 onmatch="include"><Image condition="end with">AcroRd32.exe</Image><CommandLine condition="contains">pdfium.dll

    33710编辑于 2026-01-17
  • 1.6K star!这个开源文本提取神器,5分钟搞定PDF/图片/Office文档!

    引擎,支持中/英/德/法/日等 100+ 语言识别,可配置多语言混合识别二、技术架构解析模块技术选型功能说明文档转换Pandoc 2+处理 Office/EPUB/Markdown 等格式PDF处理pdfium2

    2.3K10编辑于 2025-03-23
  • PDF防传播防复制一机一码制作教程版权在我手

    PDF保护; 文档人性化,软件提供文档可以试用浏览,未注册用户,可以浏览前面特定页数或者完全不给于未注册用户的浏览权限,而浏览多少页完全由用户决定,此外FIRC团队自主研发专用阅读器,基于强大谷歌开源pdfium

    51210编辑于 2025-07-18
  • 来自专栏量子位

    一起来找BUG!谷歌推出全新漏洞悬赏平台,不会的还管教

    我们就以Chrome为例: 首先是漏洞查找范围: Canary版Chrome由于谷歌本身就会频繁回归测试,所以尽量多找Stable、Beta、Dev版上的bug; 谷歌提供或使用的第三方组件 (如PDFium

    1K40编辑于 2023-03-10
  • 来自专栏机器学习与统计学

    开源的本地文档解析神器,实测,快如闪电,400 页 PDF 仅需 1 秒

    核心用 Rust 写,通过 PDFium 做文本提取,内置 Tesseract OCR,解析速度快得离谱 LlamaParse 是 LlamaIndex 的云端文档解析服务,适合处理复杂表格、多栏排版、

    28100编辑于 2026-06-03
  • 来自专栏DotNet NB && CloudNative

    C#/.NET/.NET Core优秀项目和框架2025年7月简报

    它是基于 Chromium 所使用的 PDFium C++ 库开发的 .NET Standard 2.0 封装库。

    51710编辑于 2025-09-02
领券