我有一个包含五个工作表的14 worksheets文件,我正在读取一个Pandas,虽然下面的代码工作,但它需要9分钟!
有没有人有加快速度的建议?
import pandas as pd
def OTT_read(xl,site_name):
df = pd.read_excel(xl.io,site_name,skiprows=2,parse_dates=0,index_col=0,
usecols=[0,1,2],header=None,
names=['date_time','%s_depth'%site_name,'%s_temp'%site_name])
return df
def make_OTT_df(FILEDIR,OTT_FILE):
xl = pd.ExcelFile(FILEDIR + OTT_FILE)
site_names = xl.sheet_names
df_list = [OTT_read(xl,site_name) for site_name in site_names]
return site_names,df_list
FILEDIR='c:/downloads/'
OTT_FILE='OTT_Data_All_stations.xlsx'
site_names_OTT,df_list_OTT = make_OTT_df(FILEDIR,OTT_FILE)发布于 2021-07-27 21:43:09
我使用xlsx2csv将excel文件实际上转换为内存中的csv,这有助于将读取时间减少到大约一半。
from xlsx2csv import Xlsx2csv
from io import StringIO
import pandas as pd
def read_excel(path: str, sheet_name: str) -> pd.DataFrame:
buffer = StringIO()
Xlsx2csv(path, outputencoding="utf-8", sheet_name=sheet_name).convert(buffer)
buffer.seek(0)
df = pd.read_csv(buffer)
return df发布于 2017-07-27 12:05:56
如果每个工作表中的行数少于65536行,则可以尝试xls (而不是xlsx )。根据我的经验,xls比xlsx快。很难与csv进行比较,因为它取决于纸张的数量。
虽然这不是一个理想的解决方案(xls是一种二进制旧的私有格式),但是我发现如果您正在使用(包括许多工作表)、具有经常更新的值的内部公式,或者出于任何您真正希望保留excel多表功能(而不是csv分隔的文件)的原因,这是很有用的。
发布于 2019-01-15 18:29:51
我知道这是旧的,但如果其他人正在寻找一个不涉及VB的答案。熊猫read_csv()更快,但你不需要一个VB脚本来获得一个csv文件。
打开Excel文件并将其保存为*.csv (逗号分隔值)格式。
在“工具”下,您可以选择“Web选项”,而在“编码”选项卡下,可以将编码更改为对数据有用的任何内容。我最后使用了Windows,西欧,因为Windows编码是“特殊的”,但是有很多方法来完成同样的事情。然后使用pd.read_csv()中的编码参数来指定编码。
这里列出了编码选项
https://stackoverflow.com/questions/28766133
复制相似问题