搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏数据派THU
10个Pandas的另类数据处理技巧
| triplets_525k.parquet | 1.9 MB | +------------------------+---------+ 读取parquet需要额外的包，比如pyarrow或fastparquet chatgpt说pyarrow比fastparquet要快，但是我在小数据集上测试时fastparquet比pyarrow要快，但是这里建议使用pyarrow，因为pandas 2.0也是默认的使用这个
1.7K40编辑于 2023-04-18
来自专栏野生AI架构师
明月机器学习系列（六）：构建机器学习or深度学习环境
FeatureSelector是用于降低机器学习数据集的维数的工具 # pydotplus, graphviz: 可视化决策树时需要用到 # PrettyTable模块可以将输出内容如表格方式整齐地输出 # pyarrow fastparquet opencv-contrib-python \ keras \ pydotplus \ graphviz \ prettytable \ pyarrow fastparquet
1.4K10发布于 2021-10-28
来自专栏renhailab数据分析
Python小技巧：保存 Pandas 的 datetime 格式
缺点:需要特定的库进行读取和写入，例如 pyarrow 或 fastparquet。不如 CSV 格式通用。3. Feather:优点:与 Parquet 类似，高效且支持多种数据类型。
1.7K00编辑于 2024-06-01
来自专栏信数据得永生
Pandas 2.2 中文官方教程和指南（十·二）
+ `pyarrow` 引擎始终将索引写入输出，但 `fastparquet` 仅写入非默认索引。这个额外的列可能会给那些不希望看到它的非 pandas 消费者带来问题。这可以是`pyarrow`、`fastparquet`或`auto`中的一个。参阅[pyarrow](https://arrow.apache.org/docs/python/)和[fastparquet](https://fastparquet.readthedocs.io/en `pyarrow>=8.0.0`支持时间间隔数据，`fastparquet>=0.1.4`支持时区感知日期时间。这些库之间的区别在于具有不同的底层依赖关系（`fastparquet`使用`numba`，而`pyarrow`使用 C 库）。
2.8K00编辑于 2024-05-24
来自专栏尼莫的AI小站
Spark Parquet详解
上述代码需要注意的是要单独安装pyarrow库，否则会报错，pandas是基于pyarrow对parquet进行支持的； PS：这里没有安装pyarrow，也没有指定engine的话，报错信息中说可以安装pyarrow或者fastparquet ，但是我这里试过fastparquet加载我的parquet文件会失败，我的parquet是spark上直接导出的，不知道是不是两个库对parquet支持上有差异还是因为啥，pyarrow就可以。。。。
2.2K43发布于 2020-10-10
来自专栏数据派THU
独家 | 10个数据科学家常犯的编程错误（附解决方案）
parquet： https://github.com/dask/fastparquet d6tflow： https://github.com/d6t/d6tflow-template 10.
1.1K20发布于 2019-05-24
来自专栏DeepHub IMBA
并行计算框架Polars、Dask的数据处理性能对比
def loading_into_parquet(df_dask): df_dask.to_parquet("yellow_tripdata_dask.parquet", engine="fastparquet
1.1K40编辑于 2023-08-30
来自专栏机器之心
数据科学家易犯的十大编码错误，你中招了吗？
parquet：https://github.com/dask/fastparquet 使用 Jupyter notebook 这个结论还有一些争议——Jupyter notebook 就像 CSV
96820发布于 2019-05-14
来自专栏机器学习与统计学
数据科学家易犯的十大编码错误，你中招了吗？
parquet：https://github.com/dask/fastparquet 使用 Jupyter notebook 这个结论还有一些争议——Jupyter notebook 就像 CSV
68730发布于 2019-05-15
课后补充---10X HD数据结合图像识别获取单细胞级空间数据
It is used in this guide mainly for the scanpy and anndata libraries.fastparquet is a Python library stardistconda install python=3 geopandasconda install -c conda-forge squidpyconda install -c conda-forge fastparquet
62320编辑于 2024-08-16
来自专栏数据分析1480
整理了25个Pandas实用技巧（上）
None html5lib: None sqlalchemy: None pymysql: None psycopg2: None jinja2: 2.10.1 s3fs: None fastparquet
3K20发布于 2020-04-30
来自专栏CDA数据分析师
收藏 | 10个数据科学家常犯的编程错误（附解决方案）
parquet： https://github.com/dask/fastparquet d6tflow： https://github.com/d6t/d6tflow-template 10.
1.1K30发布于 2019-06-05
来自专栏程序那些事
Pandas高级教程之:自定义选项
If None then try ‘pyarrow’ and ‘fastparquet’ mode.chained_assignment warn Controls SettingWithCopyWarning
1.1K20发布于 2021-07-22
来自专栏信数据得永生
Pandas 2.2 中文官方教程和指南（一）
额外组件注释 PyTables 3.8.0 hdf5 基于 HDF5 的读取 / 写入 blosc 1.21.3 hdf5 HDF5 压缩；仅适用于 conda zlib hdf5 HDF5 压缩 fastparquet extra 注释 PyTables 3.8.0 hdf5 基于 HDF5 的读取/写入 blosc 1.21.3 hdf5 HDF5 的压缩；仅在 conda 上可用 zlib hdf5 HDF5 的压缩 fastparquet 注释 PyTables 3.8.0 hdf5 基于 HDF5 的读取 / 写入 blosc 1.21.3 hdf5 HDF5 的压缩；仅在 conda 上可用 zlib hdf5 HDF5 的压缩 fastparquet 额外注释 PyTables 3.8.0 hdf5 基于 HDF5 的读取/写入 blosc 1.21.3 hdf5 HDF5 的压缩；只在 conda 上可用 zlib hdf5 HDF5 的压缩 fastparquet
5K10编辑于 2024-04-26
来自专栏王的机器
『金融数据结构』「3. 基于事件采样」
第 10 行就是用 to_parquet 做上面说的事，唯一需要注意是要选取 engin 参数为 'pyarrow' 或者 'fastparquet'。运行报错了的先装 pyarrow 工具包。
2.7K40发布于 2019-08-05
来自专栏机器学习初学者精选文章
【Python】这25个Pandas高频实用技巧，不得不服！
None bs4: None html5lib: None sqlalchemy: None pymysql: None psycopg2: None jinja2: 2.10.1 s3fs: None fastparquet
7.8K50编辑于 2022-11-07
来自专栏信数据得永生
Pandas 2.2 中文官方教程和指南（二十二）
Available options: 'auto', 'pyarrow', 'fastparquet', the default is 'auto' [default: auto] [currently Available options: 'auto', 'pyarrow', 'fastparquet', the default is 'auto' [default: auto] [currently
90000编辑于 2024-05-24

10个Pandas的另类数据处理技巧

明月机器学习系列（六）：构建机器学习or深度学习环境

Python小技巧：保存 Pandas 的 datetime 格式

Pandas 2.2 中文官方教程和指南（十·二）

Spark Parquet详解

独家 | 10个数据科学家常犯的编程错误（附解决方案）

并行计算框架Polars、Dask的数据处理性能对比

数据科学家易犯的十大编码错误，你中招了吗？

数据科学家易犯的十大编码错误，你中招了吗？

课后补充---10X HD数据结合图像识别获取单细胞级空间数据

整理了25个Pandas实用技巧（上）

收藏 | 10个数据科学家常犯的编程错误（附解决方案）

Pandas高级教程之:自定义选项

Pandas 2.2 中文官方教程和指南（一）

『金融数据结构』「3. 基于事件采样」

【Python】这25个Pandas高频实用技巧，不得不服！

Pandas 2.2 中文官方教程和指南（二十二）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐