文章/答案/技术大牛

发布

问PyPDF2提取空文本
EN

Stack Overflow用户

提问于 2019-04-10 08:48:22

回答 1查看 9.1K关注 0票数 10

我使用PyPDF2从pdf中提取文本。我在google中找到的所有示例都类似于我的代码：

import PyPDF2

reader = PyPDF2.PdfFileReader("test2.pdf")
page = reader.getPage(0)
text = page.extractText()
print(text.encode("utf-8"))

但是，我的控制台中有空文本：

b'‘

这个代码我测试了不同的pdf和所有pdf都是空的

UPD：

# getDocumentInfo
{'/Producer': 'Skia/PDF m75'}

文件pdf格式

pypdf2

python

回答 1

Stack Overflow用户

发布于 2020-11-03 07:03:00

看起来，某些字体/文本组合使得PyPDF2、PyPDF3或PyPDF4无法读取文本。

要从这些PDF中提取文本，可以使用专用的PDF文本提取包pdfminer.six。

from pdfminer import high_level

local_pdf_filename = "/path/to/pdf/you_want_to_extract_text_from.pdf"
pages = [0] # just the first page

extracted_text = high_level.extract_text(local_pdf_filename, "", pages)
print(extracted_text)

它适用于所有对我来说失败的pdfs，并且非常快速地作为后盾来实现。完整的文本函数是这里函数。

票数 11

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55608376

复制

相似问题

问PyPDF2提取空文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PyPDF2提取空文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PyPDF2提取空文本
EN