首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将Excel文件读取到熊猫数据的更快捷方法

将Excel文件读取到熊猫数据的更快捷方法
EN

Stack Overflow用户
提问于 2015-02-27 13:21:02
回答 6查看 98.2K关注 0票数 52

我有一个包含五个工作表的14 worksheets文件,我正在读取一个Pandas,虽然下面的代码工作,但它需要9分钟!

有没有人有加快速度的建议?

代码语言:javascript
复制
import pandas as pd

def OTT_read(xl,site_name):
    df = pd.read_excel(xl.io,site_name,skiprows=2,parse_dates=0,index_col=0,
                       usecols=[0,1,2],header=None,
                       names=['date_time','%s_depth'%site_name,'%s_temp'%site_name])
    return df

def make_OTT_df(FILEDIR,OTT_FILE):
    xl = pd.ExcelFile(FILEDIR + OTT_FILE)
    site_names = xl.sheet_names
    df_list = [OTT_read(xl,site_name) for site_name in site_names]
    return site_names,df_list

FILEDIR='c:/downloads/'
OTT_FILE='OTT_Data_All_stations.xlsx'
site_names_OTT,df_list_OTT = make_OTT_df(FILEDIR,OTT_FILE)
EN

回答 6

Stack Overflow用户

发布于 2021-07-27 21:43:09

我使用xlsx2csv将excel文件实际上转换为内存中的csv,这有助于将读取时间减少到大约一半。

代码语言:javascript
复制
from xlsx2csv import Xlsx2csv
from io import StringIO
import pandas as pd


def read_excel(path: str, sheet_name: str) -> pd.DataFrame:
    buffer = StringIO()
    Xlsx2csv(path, outputencoding="utf-8", sheet_name=sheet_name).convert(buffer)
    buffer.seek(0)
    df = pd.read_csv(buffer)
    return df
票数 10
EN

Stack Overflow用户

发布于 2017-07-27 12:05:56

如果每个工作表中的行数少于65536行,则可以尝试xls (而不是xlsx )。根据我的经验,xlsxlsx快。很难与csv进行比较,因为它取决于纸张的数量。

虽然这不是一个理想的解决方案(xls是一种二进制旧的私有格式),但是我发现如果您正在使用(包括许多工作表)、具有经常更新的值的内部公式,或者出于任何您真正希望保留excel多表功能(而不是csv分隔的文件)的原因,这是很有用的。

票数 8
EN

Stack Overflow用户

发布于 2019-01-15 18:29:51

我知道这是旧的,但如果其他人正在寻找一个不涉及VB的答案。熊猫read_csv()更快,但你不需要一个VB脚本来获得一个csv文件。

打开Excel文件并将其保存为*.csv (逗号分隔值)格式。

在“工具”下,您可以选择“Web选项”,而在“编码”选项卡下,可以将编码更改为对数据有用的任何内容。我最后使用了Windows,西欧,因为Windows编码是“特殊的”,但是有很多方法来完成同样的事情。然后使用pd.read_csv()中的编码参数来指定编码。

这里列出了编码选项

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28766133

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档