搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏vanguard
cuDF installation
cuDF替换pandas，是一个 Python GPU DataFrame 库（基于 Apache Arrow 列式内存格式构建），用于使用 DataFrame 样式 API 加载、连接、聚合、过滤和以其他方式操作表格数据 https://rapids.ai/start.html#prerequisites image.png # python3.8 -m pip install cudf-cuda114 # failed repo.anaconda.com/miniconda/Miniconda3-py38_4.11.0-Linux-x86_64.sh bash Miniconda3-py38_4.11.0-Linux-x86_64.sh # cudf - python3.8 conda create -n rapids-22.04 -c rapidsai -c nvidia -c conda-forge cudf=22.04 python= 3.8 cudatoolkit=11.4 conda activate rapids-22.04 # python # import cudf OKAY
1.8K10编辑于 2022-04-27
来自专栏早起Python
cuDF，能取代 Pandas 吗？
cuDF介绍 cuDF是一个基于Apache Arrow列内存格式的Python GPU DataFrame库，用于加载、连接、聚合、过滤和其他数据操作。cuDF还提供了类似于pandas的API。 GitHub：https://github.com/rapidsai/cudf Documentation：https://docs.rapids.ai/api/cudf/stable 相关框架介绍 cuDF Dask-cuDF: Dask-cuDF在需要的情况下扩展Dask，以允许其DataFrame分区使用cuDF GPU DataFrame而不是Pandas DataFrame进行处理。何时使用cuDF和Dask-cuDF cuDF: 当您的工作流在单个GPU上足够快，或者您的数据在单个GPU的内存中轻松容纳时，您会希望使用cuDF。 cuDF代码案例 import os import pandas as pd import cudf # Creating a cudf.Series s = cudf.Series([1, 2, 3
2K12编辑于 2024-01-26
来自专栏量化投资与机器学习
使用cuDF在GPU加速Pandas
cuDF库就是朝这个方向迈出的一步。 cuDF cuDF（https://github.com/rapidsai/cudf）是一个基于Python的GPU DataFrame库，用于处理数据，包括加载、连接、聚合和过滤数据。那么，你所需做的是把你的Pandas DataFrame转换成cuDF。cuDF支持Pandas大多数常见的DataFrame操作，因此无需太多学习成本你就可以加速许多常规的Pandas代码。 = cudf.DataFrame.from_pandas(pandas_df) 在我们的第一个测试中，让我计算一下 Pandas VS cuDF数据中a变量的平均值需要多长时间。 # Output: 2.76 s per loop %timeit cudf_df.merge(cudf_df, on='b') 即使使用i7-8700k CPU，Pandas完成合并平均也需要39.2
9.4K10发布于 2019-09-29
来自专栏Python大数据分析
RAPIDS cuDF，让数据处理飞起来~
RAPIDS拥有cuML、cuGraph、cuDF等众多核心组件库，cuDF专门负责数据处理，它是一个DataFrame库，类似Pandas，但cuDF运行在GPU上，所以它能提供高效的数据帧操作，支持数据加载很多人可能觉得cuDF基于GPU来工作，会不会使用门槛非常高，其实不然，cuDF用起来简单，而且成本也非常低廉。 python rapidsai-csp-utils/colab/env-check.py 导入cuDF看是否安装成功。 import cudf print(cudf. 实现 start = time.time() df_cudf = calculate_rfm(df_cudf) df_cudf = calculate_engagement(df_cudf) df_cudf = calculate_income(df_cudf) df_cudf = user_segmentation(df_cudf) cudf_segmentation_time = time.time(
97100编辑于 2025-01-19
wsl环境里面的cudf报错CudaSupportError: Error at driver init:
WSL2 on Win11 安装 Rapids过程中出现错误CudaSupportError: Error at driver init: [100] Call to cuInit results in CUDA_ERROR_NO_DEVICE
17200编辑于 2025-07-16
来自专栏AI科技评论
Github项目推荐 | cuDF：加快数据处理流程的DataFrame库
cuDF 是一个基于 Apache Arrow 列内存格式的数据帧库，它是一个 GPU DataFrame 库，可以进行加载，连接，聚合，过滤等数据操作。 cuDF 提供了类似 pandas 的 API，数据工程师和数据科学家都很熟悉它们，他们可以使用它轻松地加快工作流程，而无需深入了解 CUDA 编程的细节。例如，以下代码段下载 CSV，然后使用 GPU 将其解析为行和列并运行计算： import cudf, io, requests from io import StringIO url="https: Pip cuDF 也可以用 PyPi 安装。 cudf-cuda100==0.6 注意：只有 Linux 系统支持 cuDF，并且 Python 的版本必须是 3.6 或 3.7 版本。
3.7K20发布于 2019-05-14
来自专栏用户6291251的专栏
再见Pandas，又一数据处理神器！
cuDF介绍 cuDF是一个基于Apache Arrow列内存格式的Python GPU DataFrame库，用于加载、连接、聚合、过滤和其他数据操作。cuDF还提供了类似于pandas的API。 GitHub：https://github.com/rapidsai/cudf Documentation：https://docs.rapids.ai/api/cudf/stable 相关框架介绍 cuDF Dask-cuDF: Dask-cuDF在需要的情况下扩展Dask，以允许其DataFrame分区使用cuDF GPU DataFrame而不是Pandas DataFrame进行处理。何时使用cuDF和Dask-cuDF cuDF: 当您的工作流在单个GPU上足够快，或者您的数据在单个GPU的内存中轻松容纳时，您会希望使用cuDF。 cuDF代码案例 import os import pandas as pd import cudf # Creating a cudf.Series s = cudf.Series([1, 2, 3
2K10编辑于 2023-12-11
来自专栏素质云笔记
nvidia-rapids︱cuDF与pandas一样的DataFrame库
cuDF（https://github.com/rapidsai/cudf）是一个基于Python的GPU DataFrame库，用于处理数据，包括加载、连接、聚合和过滤数据。 2.5 groupby ---- 1 cuDF背景与安装 1.1 背景 cuDF在过去一年中的发展速度非常之快。该版本将cuStrings存储库合并到cuDF中，并为合并两个代码库做好了准备，使字符串功能能够被更紧密地集成到cuDF中，以此提供更快的加速和更多的功能。此外，libcudf 0.10添加了许多新的API和算法，包括基于排序、支持空数据的分组功能、分组功能分位数和中位数、cudf :: unique_count，cudf :: repeat、cudf : cuDF 到pandas >>> import cudf >>> gdf = cudf.DataFrame({'a': [1, 2, None], 'b': [3, None, 5]}) >>> gdf.fillna
2.9K10发布于 2020-03-27
来自专栏用户6291251的专栏
再见Pandas，又一数据处理神器！
cuDF介绍 cuDF是一个基于Apache Arrow列内存格式的Python GPU DataFrame库，用于加载、连接、聚合、过滤和其他数据操作。cuDF还提供了类似于pandas的API。 GitHub：https://github.com/rapidsai/cudf Documentation：https://docs.rapids.ai/api/cudf/stable 相关框架介绍 cuDF Dask-cuDF: Dask-cuDF在需要的情况下扩展Dask，以允许其DataFrame分区使用cuDF GPU DataFrame而不是Pandas DataFrame进行处理。何时使用cuDF和Dask-cuDF cuDF: 当您的工作流在单个GPU上足够快，或者您的数据在单个GPU的内存中轻松容纳时，您会希望使用cuDF。 cuDF代码案例 import os import pandas as pd import cudf # Creating a cudf.Series s = cudf.Series([1, 2, 3
2K10编辑于 2023-12-11
来自专栏DeepHub IMBA
在gpu上运行Pandas和sklearn
我们将创建cuDF（cuda dataframe），其大小为10000000行x 2列(10M x 2)，首先导入需要的库： import cudf import pandas as pd import size=10000000), 'col_2': np.random.randint(0, 10000000, size=10000000)}) cuDF (X) y = cudf.DataFrame(y)[0] X_cudf, X_cudf_test, y_cudf, y_cudf_test = train_test_split(X, y, test_size = 0.2, random_state=random_state) X_train = X_cudf.to_pandas() X_test = X_cudf_test.to_pandas() y_train = y_cudf.to_pandas() y_test = y_cudf_test.to_pandas() CuML库的make_regression函数和train_test_split都与与sklearn
3K20编辑于 2022-11-11
来自专栏相约机器人
如何通过Maingear的新型Data Science PC将NVIDIA GPU用于机器学习
cuDF和cuML。 cuDF：数据帧操作 cuDF提供了类似Pandas的API，用于数据帧操作，因此，如果知道如何使用Pandas，那么已经知道如何使用cuDF。可以像Pandas一样创建系列和数据框： import numpy as np import cudf s = cudf.Series([1,2,3,None,4]) df = cudf.DataFrame , 0.3]}) gdf = cudf.DataFrame.from_pandas(df) 也可以做相反的事情，将cuDF数据帧转换为pandas数据帧： import cudf df = cudf.DataFrame /zh/0.10.0/10min.html#When-to-use-cuDF-and-Dask-cuDF
2.6K40发布于 2019-10-31
来自专栏机器学习与统计学
Pandas 加速150倍！
cuDF 可通过pipNVIDIA Python 软件包索引进行安装。 cudf-cu11 对于 CUDA 12.x： pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12 cuDF 可以使用 import pandas as pd 要加速 Python 脚本，请在命令行上使用 Python 模块标志： python -m cudf.pandas script.py 或者，通过导入 cudf.pandas ： cudf.pandas.install() import pandas as pd 启用 cudf.pandas 后，import pandas（或其任何子模块）会导入一个魔法模块，而不是 ' (ModuleAccelerator(fast=cudf, slow=pandas))> 参考： https://github.com/rapidsai/cudf docs.rapids.ai/api
78310编辑于 2024-07-06
来自专栏Python数据科学
速度起飞！替代 pandas 的 8 个神库
ks from pyspark.sql import SparkSession 使用文档：https://koalas.readthedocs.io/en/latest/index.html 8. cuDF cuDF 是一个 Python GPU DataFrame 库，基于 Apache Arrow 列式内存格式构建，用于数据操作。 cuDF 提供类 pandas 的 API，因此数据分析师也是无需了解 CUDA 编程细节的。 import cudf, io, requests from io import StringIO url = "https://github.com/plotly/datasets/raw/master /tips.csv" content = requests.get(url).content.decode('utf-8') tips_df = cudf.read_csv(StringIO(content
4.6K20编辑于 2023-08-29
来自专栏素质云笔记
NVIDIA的python-GPU算法生态︱ RAPIDS 0.10
---- RAPIDS核心库更新 cuDF cuDF在过去一年中的发展速度非常之快。每个版本都加入了令人兴奋的新功能、优化和错误修复。0.10版本也不例外。该版本将cuStrings存储库合并到cuDF中，并为合并两个代码库做好了准备，使字符串功能能够被更紧密地集成到cuDF中，以此提供更快的加速和更多的功能。 cuDF继续改进其Pandas API兼容性和Dask DataFrame互操作性，使我们的用户可以最大程度地无缝使用cuDF。在幕后，libcudf的内部架构正在经历一次重大的重新设计。 0.10版本加入了最新的cudf :: column和cudf :: table类，这些类大大提高了内存所有权控制的强健性，并为将来支持可变大小数据类型（包括字符串列、数组和结构）奠定了基础。此外，libcudf 0.10添加了许多新的API和算法，包括基于排序、支持空数据的分组功能、分组功能分位数和中位数、cudf :: unique_count，cudf :: repeat、cudf :
3.8K31发布于 2020-03-27
来自专栏大数据杂货铺
从 CPU 切换到 GPU 进行纽约出租车票价预测
例如，我使用import cudf 作为 pd而不是import pandas as pd。猜猜发生了什么！它不起作用……但它几乎起作用了。第一个问题的根本原因是 cuDF 的parse_dates不能像Pandas一样处理异常或非标准格式。有关在 cuDF 数据帧中使用用户定义函数的更深入解释，您应该查看RAPIDS 文档。我将通过一系列图表展示从 pandas 和 scikit-learn 切换到 cuDF 和 cuML 时的实际速度改进。第一个比较 GPU 和 CPU 之间在较短任务上花费的秒数。 cuDF FTW！最后，这是一张图表，其中包含在 CPU 和 GPU 上运行的实验的完整端到端运行时间。总之，cuDF 和 cuML 代码将运行时间减少了 98% ！
3K20编辑于 2021-12-08
来自专栏小白实例
【玩转GPU】基于GPU云服务器实现MySQL数据库加速
-c conda-forge \rapids-blazing=21.08 python=3.7 cudatoolkit=10.2然后我们需要初始化RAPIDS用于识别GPU:pythonimport cudf , cumlprint(f'GPU found: {torch.cuda.is_available()}')五、GPU加速SQL查询利用RAPIDS的cudf和BlazingSQL组件,可以加速MySQL df_gpu = bc.sql('SELECT * FROM data WHERE age>20')六、GPU加速分析与训练除了SQL查询,我们还可以使用RAPIDS在GPU上进行更复杂的分析和机器学习:导入cudf , cuml用于GPU加速import cudf, cuml读取数据到GPU内存df = cudf.read_csv('data.csv') 在GPU上做聚合、排序、分组操作df_grouped = df.groupby from cuml.svm import SVC clf = SVC()clf.fit(X_train, y_train)y_pred = clf.predict(X_test)使用RAPIDS的cudf
5.7K12编辑于 2023-07-19
来自专栏素质云笔记
nvidia-rapids︱cuGraph(NetworkX-like)关系图模型
RAPIDS cuGraph库是一组图形分析，用于处理GPU数据帧中的数据 - 请参阅cuDF。关联文章： nvidia-rapids︱cuDF与pandas一样的DataFrame库 NVIDIA的python-GPU算法生态︱ RAPIDS 0.10 nvidia-rapids︱cuML (using read_csv) Dataframe gdf = cudf.read_csv("graph_data.csv", names=["src", "dst"], dtype=["int32 pip install scipy 代码模块： # Import needed libraries import cugraph import cudf from collections import cuGraph模型： # cuGraph # Read the data gdf = cudf.read_csv(datafile, names=["src", "dst"], delimiter
2.3K10发布于 2020-03-27
来自专栏大数据杂货铺
Cloudera机器学习中的NVIDIA RAPIDS
打开Comparing_Frameworks.ipynb文件以查看cuDF和熊猫的比较。 and can be found in `feature_engineering_2.py` 笔记本分为两部分：RAPIDS cuDF和Pandas。在此阶段值得注意的是，RAPIDS cuDF只能利用一个GPU。如果我们希望扩展到单个GPU之外，则需要利用`dask_cudf`。建模对于高级建模部分，我们将再次利用xgboost作为主要方法。为了对RAPIDS cuDF数据帧使用`train_test_split`，我们改用`cuml`版本。生成的索引也可以按照常规通过iloc直接与cuDF数据帧一起使用。评估模型通过训练我们的模型，我们可以查看模型中的混淆矩阵和auc得分。
1.4K20发布于 2021-07-02
Sirius：GPU加速DuckDB，刷新ClickBench纪录
为了最大限度地减少工程投入并提高可靠性，Sirius构建在成熟的某机构库之上：某机构 cuDF：为GPU原生设计的高性能列式关系运算符（例如，连接、聚合、投影）。 Sirius格式可以直接映射到 cudf::table，实现零拷贝互操作性，使得所有剩余的SQL运算符（聚合、投影和连接）能够通过cuDF原语以GPU速度执行。得益于通过cuDF实现的GPU高效计算，Sirius在大多数查询中实现了最低的相对运行时间。例如，在q4、q5和q18中，Sirius在过滤、投影和聚合等常用操作上显示出显著的性能提升。为了解决这个问题，Sirius利用cuDF的即时编译字符串转换框架来处理用户定义函数。图5比较了JIT方法与cuDF预编译API的性能，结果显示速度提升了13倍。通过将正则表达式分解为标准的字符串操作，cuDF JIT框架可以将这些操作融合到单个核函数中，从而改善数据局部性并降低寄存器压力。图5.
17810编辑于 2026-02-16
来自专栏DeepHub IMBA
Scikit-Learn 1.8.0 引入 Array API，支持 PyTorch 与 CuPy 张量的原生 GPU 加速
Scikit-Learn 内部开关： fromsklearnimportset_config set_config(array_api_dispatch=True) 目前还有一个问题，就是不支持 cuDF 但是你依然可以用 cuDF 做数据加载和预处理，不过输入模型之前必须确保输入是 array-like 格式。也就是说类别特征必须手动编码而且且无法再依赖 pandas/cuDF 的 dtype 自动识别机制。基于 GPU 的 XGBoost 交叉验证下面是一个运行 5 折分层交叉验证的示例。 import os os.environ['SCIPY_ARRAY_API'] = '1' import cupy as cp import cudf from sklearn.model_selection from sklearn import set_config set_config(array_api_dispatch=True) # 加载数据并进行简单的预处理 X = cudf.read_csv
41910编辑于 2025-12-30

第 2 页第 3 页第 4 页

点击加载更多

cuDF installation

cuDF，能取代 Pandas 吗？

使用cuDF在GPU加速Pandas

RAPIDS cuDF，让数据处理飞起来~

wsl环境里面的cudf报错CudaSupportError: Error at driver init:

Github项目推荐 | cuDF：加快数据处理流程的DataFrame库

再见Pandas，又一数据处理神器！

nvidia-rapids︱cuDF与pandas一样的DataFrame库

再见Pandas，又一数据处理神器！

在gpu上运行Pandas和sklearn

如何通过Maingear的新型Data Science PC将NVIDIA GPU用于机器学习

Pandas 加速150倍！

速度起飞！替代 pandas 的 8 个神库

NVIDIA的python-GPU算法生态︱ RAPIDS 0.10

从 CPU 切换到 GPU 进行纽约出租车票价预测

【玩转GPU】基于GPU云服务器实现MySQL数据库加速

nvidia-rapids︱cuGraph(NetworkX-like)关系图模型

Cloudera机器学习中的NVIDIA RAPIDS

Sirius：GPU加速DuckDB，刷新ClickBench纪录

Scikit-Learn 1.8.0 引入 Array API，支持 PyTorch 与 CuPy 张量的原生 GPU 加速

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

cuDF installation

cuDF，能取代 Pandas 吗？

使用cuDF在GPU加速Pandas

RAPIDS cuDF，让数据处理飞起来~

wsl环境里面的cudf报错CudaSupportError: Error at driver init:

Github项目推荐 | cuDF：加快数据处理流程的DataFrame库

再见Pandas，又一数据处理神器！

nvidia-rapids︱cuDF与pandas一样的DataFrame库

再见Pandas，又一数据处理神器！

在gpu上运行Pandas和sklearn

如何通过Maingear的新型Data Science PC将NVIDIA GPU用于机器学习

Pandas 加速150倍！

速度起飞！替代 pandas 的 8 个神库

NVIDIA的python-GPU算法生态 ︱ RAPIDS 0.10

从 CPU 切换到 GPU 进行纽约出租车票价预测

【玩转GPU】基于GPU云服务器实现MySQL数据库加速

nvidia-rapids︱cuGraph(NetworkX-like)关系图模型

Cloudera机器学习中的NVIDIA RAPIDS

Sirius：GPU加速DuckDB，刷新ClickBench纪录

Scikit-Learn 1.8.0 引入 Array API，支持 PyTorch 与 CuPy 张量的原生 GPU 加速

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

NVIDIA的python-GPU算法生态︱ RAPIDS 0.10