我使用PyPDF2从pdf中提取文本。我在google中找到的所有示例都类似于我的代码:
import PyPDF2
reader = PyPDF2.PdfFileReader("test2.pdf")
page = reader.getPage(0)
text = page.extractText()
print(text.encode("utf-8"))但是,我的控制台中有空文本:
b'‘
这个代码我测试了不同的pdf和所有pdf都是空的
UPD:
# getDocumentInfo
{'/Producer': 'Skia/PDF m75'}文件pdf格式
发布于 2020-11-03 07:03:00
看起来,某些字体/文本组合使得PyPDF2、PyPDF3或PyPDF4无法读取文本。
要从这些PDF中提取文本,可以使用专用的PDF文本提取包pdfminer.six。
from pdfminer import high_level
local_pdf_filename = "/path/to/pdf/you_want_to_extract_text_from.pdf"
pages = [0] # just the first page
extracted_text = high_level.extract_text(local_pdf_filename, "", pages)
print(extracted_text)https://stackoverflow.com/questions/55608376
复制相似问题