首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏vanguard

    cuDF installation

    cuDF替换pandas,是一个 Python GPU DataFrame 库(基于 Apache Arrow 列式内存格式构建),用于使用 DataFrame 样式 API 加载、连接、聚合、过滤和以其他方式操作表格数据 https://rapids.ai/start.html#prerequisites image.png # python3.8 -m pip install cudf-cuda114 # failed repo.anaconda.com/miniconda/Miniconda3-py38_4.11.0-Linux-x86_64.sh bash Miniconda3-py38_4.11.0-Linux-x86_64.sh # cudf - python3.8 conda create -n rapids-22.04 -c rapidsai -c nvidia -c conda-forge cudf=22.04 python= 3.8 cudatoolkit=11.4 conda activate rapids-22.04 # python # import cudf OKAY

    1.7K10编辑于 2022-04-27
  • 来自专栏早起Python

    cuDF,能取代 Pandas 吗?

    cuDF介绍 cuDF是一个基于Apache Arrow列内存格式的Python GPU DataFrame库,用于加载、连接、聚合、过滤和其他数据操作。cuDF还提供了类似于pandas的API。 GitHub:https://github.com/rapidsai/cudf Documentation:https://docs.rapids.ai/api/cudf/stable 相关框架介绍 cuDF Dask-cuDF: Dask-cuDF在需要的情况下扩展Dask,以允许其DataFrame分区使用cuDF GPU DataFrame而不是Pandas DataFrame进行处理。 何时使用cuDF和Dask-cuDF cuDF: 当您的工作流在单个GPU上足够快,或者您的数据在单个GPU的内存中轻松容纳时,您会希望使用cuDFcuDF代码案例 import os import pandas as pd import cudf # Creating a cudf.Series s = cudf.Series([1, 2, 3

    1.6K12编辑于 2024-01-26
  • 来自专栏量化投资与机器学习

    使用cuDF在GPU加速Pandas

    cuDF库就是朝这个方向迈出的一步。 cuDF cuDF(https://github.com/rapidsai/cudf)是一个基于Python的GPU DataFrame库,用于处理数据,包括加载、连接、聚合和过滤数据。 那么,你所需做的是把你的Pandas DataFrame转换成cuDFcuDF支持Pandas大多数常见的DataFrame操作,因此无需太多学习成本你就可以加速许多常规的Pandas代码。 = cudf.DataFrame.from_pandas(pandas_df) 在我们的第一个测试中,让我计算一下 Pandas VS cuDF数据中a变量的平均值需要多长时间。 # Output: 2.76 s per loop %timeit cudf_df.merge(cudf_df, on='b') 即使使用i7-8700k CPU,Pandas完成合并平均也需要39.2

    9.3K10发布于 2019-09-29
  • 来自专栏Python大数据分析

    RAPIDS cuDF,让数据处理飞起来~

    RAPIDS拥有cuML、cuGraph、cuDF等众多核心组件库,cuDF专门负责数据处理,它是一个DataFrame库,类似Pandas,但cuDF运行在GPU上,所以它能提供高效的数据帧操作,支持数据加载 很多人可能觉得cuDF基于GPU来工作,会不会使用门槛非常高,其实不然,cuDF用起来简单,而且成本也非常低廉。 python rapidsai-csp-utils/colab/env-check.py 导入cuDF看是否安装成功。 import cudf print(cudf. 实现 start = time.time() df_cudf = calculate_rfm(df_cudf) df_cudf = calculate_engagement(df_cudf) df_cudf = calculate_income(df_cudf) df_cudf = user_segmentation(df_cudf) cudf_segmentation_time = time.time(

    75400编辑于 2025-01-19
  • wsl环境里面的cudf报错CudaSupportError: Error at driver init:

    WSL2 on Win11 安装 Rapids过程中出现错误CudaSupportError: Error at driver init: [100] Call to cuInit results in CUDA_ERROR_NO_DEVICE

    15000编辑于 2025-07-16
  • 来自专栏AI科技评论

    Github项目推荐 | cuDF:加快数据处理流程的DataFrame库

    cuDF 是一个基于 Apache Arrow 列内存格式的数据帧库,它是一个 GPU DataFrame 库,可以进行加载,连接,聚合,过滤等数据操作。 cuDF 提供了类似 pandas 的 API,数据工程师和数据科学家都很熟悉它们,他们可以使用它轻松地加快工作流程,而无需深入了解 CUDA 编程的细节。 例如,以下代码段下载 CSV,然后使用 GPU 将其解析为行和列并运行计算: import cudf, io, requests from io import StringIO url="https: Pip cuDF 也可以用 PyPi 安装。 cudf-cuda100==0.6 注意:只有 Linux 系统支持 cuDF,并且 Python 的版本必须是 3.6 或 3.7 版本。

    3.6K20发布于 2019-05-14
  • 来自专栏用户6291251的专栏

    再见Pandas,又一数据处理神器!

    cuDF介绍 cuDF是一个基于Apache Arrow列内存格式的Python GPU DataFrame库,用于加载、连接、聚合、过滤和其他数据操作。cuDF还提供了类似于pandas的API。 GitHub:https://github.com/rapidsai/cudf Documentation:https://docs.rapids.ai/api/cudf/stable 相关框架介绍 cuDF Dask-cuDF: Dask-cuDF在需要的情况下扩展Dask,以允许其DataFrame分区使用cuDF GPU DataFrame而不是Pandas DataFrame进行处理。 何时使用cuDF和Dask-cuDF cuDF: 当您的工作流在单个GPU上足够快,或者您的数据在单个GPU的内存中轻松容纳时,您会希望使用cuDFcuDF代码案例 import os import pandas as pd import cudf # Creating a cudf.Series s = cudf.Series([1, 2, 3

    1.6K10编辑于 2023-12-11
  • 来自专栏素质云笔记

    nvidia-rapids︱cuDF与pandas一样的DataFrame库

    cuDF(https://github.com/rapidsai/cudf)是一个基于Python的GPU DataFrame库,用于处理数据,包括加载、连接、聚合和过滤数据。 2.5 groupby ---- 1 cuDF背景与安装 1.1 背景 cuDF在过去一年中的发展速度非常之快。 该版本将cuStrings存储库合并到cuDF中,并为合并两个代码库做好了准备,使字符串功能能够被更紧密地集成到cuDF中,以此提供更快的加速和更多的功能。 此外,libcudf 0.10添加了许多新的API和算法,包括基于排序、支持空数据的分组功能、分组功能分位数和中位数、cudf :: unique_count,cudf :: repeat、cudf : cuDF 到pandas >>> import cudf >>> gdf = cudf.DataFrame({'a': [1, 2, None], 'b': [3, None, 5]}) >>> gdf.fillna

    2.8K10发布于 2020-03-27
  • 来自专栏用户6291251的专栏

    再见Pandas,又一数据处理神器!

    cuDF介绍 cuDF是一个基于Apache Arrow列内存格式的Python GPU DataFrame库,用于加载、连接、聚合、过滤和其他数据操作。cuDF还提供了类似于pandas的API。 GitHub:https://github.com/rapidsai/cudf Documentation:https://docs.rapids.ai/api/cudf/stable 相关框架介绍 cuDF Dask-cuDF: Dask-cuDF在需要的情况下扩展Dask,以允许其DataFrame分区使用cuDF GPU DataFrame而不是Pandas DataFrame进行处理。 何时使用cuDF和Dask-cuDF cuDF: 当您的工作流在单个GPU上足够快,或者您的数据在单个GPU的内存中轻松容纳时,您会希望使用cuDFcuDF代码案例 import os import pandas as pd import cudf # Creating a cudf.Series s = cudf.Series([1, 2, 3

    1.6K10编辑于 2023-12-11
  • 来自专栏DeepHub IMBA

    在gpu上运行Pandas和sklearn

    我们将创建cuDF(cuda dataframe),其大小为10000000行x 2列(10M x 2),首先导入需要的库: import cudf import pandas as pd import size=10000000), 'col_2': np.random.randint(0, 10000000, size=10000000)}) cuDF (X) y = cudf.DataFrame(y)[0] X_cudf, X_cudf_test, y_cudf, y_cudf_test = train_test_split(X, y, test_size = 0.2, random_state=random_state) X_train = X_cudf.to_pandas() X_test = X_cudf_test.to_pandas() y_train = y_cudf.to_pandas() y_test = y_cudf_test.to_pandas() CuML库的make_regression函数和train_test_split都与与sklearn

    2.7K20编辑于 2022-11-11
  • 来自专栏相约机器人

    如何通过Maingear的新型Data Science PC将NVIDIA GPU用于机器学习

    cuDF和cuML。 cuDF:数据帧操作 cuDF提供了类似Pandas的API,用于数据帧操作,因此,如果知道如何使用Pandas,那么已经知道如何使用cuDF。 可以像Pandas一样创建系列和数据框: import numpy as np import cudf s = cudf.Series([1,2,3,None,4]) df = cudf.DataFrame , 0.3]}) gdf = cudf.DataFrame.from_pandas(df) 也可以做相反的事情,将cuDF数据帧转换为pandas数据帧: import cudf df = cudf.DataFrame /zh/0.10.0/10min.html#When-to-use-cuDF-and-Dask-cuDF

    2.4K40发布于 2019-10-31
  • 来自专栏机器学习与统计学

    Pandas 加速150倍!

    cuDF 可通过pipNVIDIA Python 软件包索引进行安装。 cudf-cu11 对于 CUDA 12.x: pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12 cuDF 可以使用 import pandas as pd 要加速 Python 脚本,请在命令行上使用 Python 模块标志: python -m cudf.pandas script.py 或者,通过导入 cudf.pandas : cudf.pandas.install() import pandas as pd 启用 cudf.pandas 后,import pandas(或其任何子模块)会导入一个魔法模块,而不是 ' (ModuleAccelerator(fast=cudf, slow=pandas))> 参考: https://github.com/rapidsai/cudf docs.rapids.ai/api

    62910编辑于 2024-07-06
  • 来自专栏Python数据科学

    速度起飞!替代 pandas 的 8 个神库

    ks from pyspark.sql import SparkSession 使用文档:https://koalas.readthedocs.io/en/latest/index.html 8. cuDF cuDF 是一个 Python GPU DataFrame 库,基于 Apache Arrow 列式内存格式构建,用于数据操作。 cuDF 提供类 pandas 的 API,因此数据分析师也是无需了解 CUDA 编程细节的。 import cudf, io, requests from io import StringIO url = "https://github.com/plotly/datasets/raw/master /tips.csv" content = requests.get(url).content.decode('utf-8') tips_df = cudf.read_csv(StringIO(content

    4.1K20编辑于 2023-08-29
  • 来自专栏素质云笔记

    NVIDIA的python-GPU算法生态 ︱ RAPIDS 0.10

    ---- RAPIDS核心库更新 cuDF cuDF在过去一年中的发展速度非常之快。每个版本都加入了令人兴奋的新功能、优化和错误修复。0.10版本也不例外。 该版本将cuStrings存储库合并到cuDF中,并为合并两个代码库做好了准备,使字符串功能能够被更紧密地集成到cuDF中,以此提供更快的加速和更多的功能。 cuDF继续改进其Pandas API兼容性和Dask DataFrame互操作性,使我们的用户可以最大程度地无缝使用cuDF。 在幕后,libcudf的内部架构正在经历一次重大的重新设计。 0.10版本加入了最新的cudf :: column和cudf :: table类,这些类大大提高了内存所有权控制的强健性,并为将来支持可变大小数据类型(包括字符串列、数组和结构)奠定了基础。 此外,libcudf 0.10添加了许多新的API和算法,包括基于排序、支持空数据的分组功能、分组功能分位数和中位数、cudf :: unique_count,cudf :: repeat、cudf :

    3.6K31发布于 2020-03-27
  • 来自专栏大数据杂货铺

    从 CPU 切换到 GPU 进行纽约出租车票价预测

    例如,我使用import cudf 作为 pd而不是import pandas as pd。 猜猜发生了什么!它不起作用……但它几乎起作用了。 第一个问题的根本原因是 cuDF 的parse_dates不能像Pandas一样处理异常或非标准格式。 有关在 cuDF 数据帧中使用用户定义函数的更深入解释,您应该查看RAPIDS 文档。 我将通过一系列图表展示从 pandas 和 scikit-learn 切换到 cuDF 和 cuML 时的实际速度改进。第一个比较 GPU 和 CPU 之间在较短任务上花费的秒数。 cuDF FTW! 最后,这是一张图表,其中包含在 CPU 和 GPU 上运行的实验的完整端到端运行时间。总之,cuDF 和 cuML 代码将运行时间减少了 98% !

    2.8K20编辑于 2021-12-08
  • 来自专栏小白实例

    【玩转GPU】基于GPU云服务器实现MySQL数据库加速

    -c conda-forge \rapids-blazing=21.08 python=3.7 cudatoolkit=10.2然后我们需要初始化RAPIDS用于识别GPU:pythonimport cudf , cumlprint(f'GPU found: {torch.cuda.is_available()}')五、GPU加速SQL查询利用RAPIDS的cudf和BlazingSQL组件,可以加速MySQL df_gpu = bc.sql('SELECT * FROM data WHERE age>20')六、GPU加速分析与训练除了SQL查询,我们还可以使用RAPIDS在GPU上进行更复杂的分析和机器学习:导入cudf , cuml用于GPU加速import cudf, cuml读取数据到GPU内存df = cudf.read_csv('data.csv') 在GPU上做聚合、排序、分组操作df_grouped = df.groupby from cuml.svm import SVC    clf = SVC()clf.fit(X_train, y_train)y_pred = clf.predict(X_test)使用RAPIDS的cudf

    4.8K12编辑于 2023-07-19
  • 来自专栏素质云笔记

    nvidia-rapids︱cuGraph(NetworkX-like)关系图模型

    RAPIDS cuGraph库是一组图形分析,用于处理GPU数据帧中的数据 - 请参阅cuDF。 关联文章: nvidia-rapids︱cuDF与pandas一样的DataFrame库 NVIDIA的python-GPU算法生态 ︱ RAPIDS 0.10 nvidia-rapids︱cuML (using read_csv) Dataframe gdf = cudf.read_csv("graph_data.csv", names=["src", "dst"], dtype=["int32 pip install scipy 代码模块: # Import needed libraries import cugraph import cudf from collections import cuGraph模型: # cuGraph # Read the data gdf = cudf.read_csv(datafile, names=["src", "dst"], delimiter

    2.2K10发布于 2020-03-27
  • 来自专栏大数据杂货铺

    Cloudera机器学习中的NVIDIA RAPIDS

    打开Comparing_Frameworks.ipynb文件以查看cuDF和熊猫的比较。 and can be found in `feature_engineering_2.py` 笔记本分为两部分:RAPIDS cuDF和Pandas。 在此阶段值得注意的是,RAPIDS cuDF只能利用一个GPU。如果我们希望扩展到单个GPU之外,则需要利用`dask_cudf`。 建模 对于高级建模部分,我们将再次利用xgboost作为主要方法。 为了对RAPIDS cuDF数据帧使用`train_test_split`,我们改用`cuml`版本。 生成的索引也可以按照常规通过iloc直接与cuDF数据帧一起使用。 评估模型 通过训练我们的模型,我们可以查看模型中的混淆矩阵和auc得分。

    1.3K20发布于 2021-07-02
  • Sirius:GPU加速DuckDB,刷新ClickBench纪录

    为了最大限度地减少工程投入并提高可靠性,Sirius构建在成熟的某机构库之上:某机构 cuDF:为GPU原生设计的高性能列式关系运算符(例如,连接、聚合、投影)。 Sirius格式可以直接映射到 cudf::table,实现零拷贝互操作性,使得所有剩余的SQL运算符(聚合、投影和连接)能够通过cuDF原语以GPU速度执行。 得益于通过cuDF实现的GPU高效计算,Sirius在大多数查询中实现了最低的相对运行时间。例如,在q4、q5和q18中,Sirius在过滤、投影和聚合等常用操作上显示出显著的性能提升。 为了解决这个问题,Sirius利用cuDF的即时编译字符串转换框架来处理用户定义函数。图5比较了JIT方法与cuDF预编译API的性能,结果显示速度提升了13倍。 通过将正则表达式分解为标准的字符串操作,cuDF JIT框架可以将这些操作融合到单个核函数中,从而改善数据局部性并降低寄存器压力。图5.

    12010编辑于 2026-02-16
  • 来自专栏Python进阶之路

    Python 实用技能 RAPIDS | 利用 GPU 加速数据科学工作流程

    Rapids 利用了几个 Python 库: cuDF:Python GPU 版的 DataFrames,在数据处理和操作方面,它几乎可以做到 Pandas 所能做的一切; cuML:Python GPU conda create -n rapids-22.12 -c rapidsai -c conda-forge -c nvidia \ cudf=22.12 cuml=22.12 cugraph 首先,我们将把数据转换为 pandas.DataFrame 并使用它创建一个 cudf.DataFrame pandas.DataFrame 无缝转换成 cudf.DataFrame,数据格式无任何更改 import pandas as pd import cudf # 如果有表格 csv 数据也可以直接从 csv 数据读取: # https://docs.rapids.ai/api/cudf/stable /api_docs/io.html # X_df = cudf.read_csv(".

    3.1K51编辑于 2022-12-25
领券