首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SAMshare

    推荐收藏】24式加速你的Python

    高速方法 第8式,在循环体中避免重复计算 低速方法 高速方法 四,加速你的函数 第9式,用循环机制代替递归函数 低速方法 高速方法 第10式,用缓存机制加速递归函数 低速方法 高速方法 第11式, 用numba加速Python函数 低速方法 高速方法 五,使用标准库函数进行加速 第12式,使用collections.Counter加速计数 低速方法 高速方法 第13式,使用collections.ChainMap 加速字典合并 低速方法 高速方法 六,使用高阶函数进行加速 第14式,使用map代替推导式进行加速 低速方法 高速方法 第15式,使用filter代替推导式进行加速 低速方法 高速方法 七,使用numpy Dask进行加速 第21式,使用dask加速dataframe 低速方法 高速方法 第22式,使用dask.delayed进行加速 低速方法 高速方法 十,应用多线程多进程加速 第23式,应用多线程加速 IO密集型任务 低速方法 高速方法 第24式,应用多进程加速CPU密集型任务 低速方法 高速方法

    93610发布于 2019-07-08
  • 来自专栏AI算法修炼营

    推荐!私藏的深度学习模型推理加速项目

    项目推荐一:NVIDIA JetRacer AI 搜索结果 网络搜索结果JetRacer AI Kit 这一款是专门为NVIDIA JetRacer AI 项目设计的智能车套件,基于Jetson Nano 源码地址:https://github.com/NVIDIA-AI-IOT/jetracer 视频教程: https://www.bilibili.com/video/av66312848/ 项目推荐二 plan 文件,onnx 格式文件,这样一来,可以把前处理,NN 计算,后处理都服务化,免除工程师搞复杂的编译工作和写 c++ 的工作,整个部署只需要写 python,特别通用高效,且没有竞争力 项目推荐

    1.7K40发布于 2020-05-08
  • 来自专栏程序IT圈

    Python处理大数据,推荐4款加速神器

    本文向大家介绍几个好用的加速工具,可以很好地补齐现有 PyData 技术栈的短板。有了这些工具,即便是处理亿级数据你也可以应对自如。 Mars Mars 是numpy 、 pandas 、scikit-learn的并行和分布式加速器,由阿里云高级软件工程师秦续业等人开发的一个基于张量的大规模数据计算的统一框架,目前它已在 GitHub 基于 Numpy 数组的实现,GPU 自身具有的多个 CUDA 核心可以促成更好的并行加速。CuPy 接口是 Numpy 的一个镜像,并且在大多情况下,它可以直接替换 Numpy 使用。 只要用兼容的 CuPy 代码替换 Numpy 代码,用户就可以实现 GPU 加速。 ?

    2.6K10发布于 2021-01-19
  • 来自专栏机器之心

    从模型到部署,FPGA该怎样加速广告推荐算法

    我还为你准备了将模型部署到 FPGA 上做硬件加速的方法,希望对你有帮助。阅读这篇文章你可能需要 20 分钟的时间。 早上起床打开音乐 APP,会有今日歌单为你推荐一些歌曲。 广告系统的 CTR 预估在具体的数值上比推荐系统要求更高,比如推荐系统可能只需要知道 A 的 CTR 比 B 大就可以排序了。 此时就可以根据广告属性做针对性推荐,针对不同的人群,做合适的推荐。例如:广告 A 是包,广告 B 是游戏,可做针对性推荐。 一、模型迭代过程 推荐系统这一场景常用的两大分类:CF-Based(协同过滤)、Content-Based(基于内容的推荐)。 雪湖科技是一家专注于人工智能和 FPGA 应用开发的企业,特别擅长于在利用 FPGA 对各类 AI 算法做硬件加速,可以提供各类基于 FPGA 的标准神经网络加速器和定制化开发。

    1.3K20发布于 2019-08-26
  • 来自专栏自学气象人

    【科研利器】Python处理大数据,推荐4款加速神器

    本文向大家介绍几个好用的加速工具,可以很好地补齐现有 PyData 技术栈的短板。有了这些工具,即便是处理亿级数据你也可以应对自如。 Mars Mars 是numpy 、 pandas 、scikit-learn的并行和分布式加速器,由阿里云高级软件工程师秦续业等人开发的一个基于张量的大规模数据计算的统一框架,目前它已在 GitHub 基于 Numpy 数组的实现,GPU 自身具有的多个 CUDA 核心可以促成更好的并行加速。CuPy 接口是 Numpy 的一个镜像,并且在大多情况下,它可以直接替换 Numpy 使用。 只要用兼容的 CuPy 代码替换 Numpy 代码,用户就可以实现 GPU 加速

    1.6K90编辑于 2022-11-02
  • 来自专栏用户11994342的专栏(2)

    什么是大模型推荐的成本控制与推理加速

    什么是大模型推荐的成本控制与推理加速?本文收录于Github:AI-From-Zero项目——一个从零开始系统学习AI的知识库。如果觉得有帮助,欢迎⭐Star支持! 本文将带你了解如何用"漏斗架构"、"模型蒸馏"、"量化加速"等技术,让大模型推荐既省钱又快——成本降到原来的1/10,推理速度提升3-5倍,同时保持90%以上的效果。 二、什么是大模型推荐的成本控制与推理加速成本控制,就是通过各种技术手段,降低大模型在推荐系统中的计算开销和调用费用。核心思路是:让大模型只做它最擅长的事,其他事情交给更便宜、更快的方案。 推理加速,则是通过算法优化和工程手段,缩短大模型生成推荐结果的时间。目标是在用户可接受的延迟范围内(通常100ms以内)返回结果。 在排序稳定的场景能加速2-3倍。异步推荐架构:大模型离线生成候选池,线上只做匹配。适合对实时性要求不高的场景,成本最低。

    8810编辑于 2026-04-13
  • 来自专栏量子位

    字节跳动开源 CowClip :推荐模型单卡训练最高加速72倍

    在 NLP 和 CV 任务上,为了加速神经网络的训练,借助 32K 的批量大小(batch size)和 8 块 GPU,只需 14 分钟就完成 ImageNet 的训练,76 分钟完成 Bert 的训练 在推荐系统上,不仅可以,还能将批量大小继续提升! 作者表示,使用该优化方法,任何人都可以很容易的分分钟训练一个中小规模的推荐模型。 CowClip 加速的理论基础 用户交互会成为推荐系统新的训练数据,模型在一次次的重新训练中都学到最新的知识。 目前的推荐系统面对着数以亿计的用户和数以千亿计的训练数据,一次完整的训练要花费大量的时间和计算成本。 为了加速推荐系统的训练,目前推荐系统会利用 GPU 进行加速训练。 然而,随着 GPU 计算能力和显存的不断增加,过去推荐系统的训练过程没有完全利用好目前 GPU 的性能。

    1.3K50编辑于 2022-04-27
  • 来自专栏深度学习与python

    AI推理加速原理解析与工程实践分享 | Q推荐

    加速方案; 最后一部分,我们则将通过 demo 的方式,演示 AIAK-Inference 的使用方式及加速效果。 为此,我们需要 AI 推理加速,针对用户训练好的模型,进行针对性的加速,缩短业务推理时间,同时提升资源利用率。 推理加速的业界解决方案 为了系统性的分析和进行推理加速方案,我们首先需要能够定义推理加速的优化目标。为此我们先简单回顾下 GPU 的硬件架构和执行模式。 ; 具体加速后端,支持业界多种开源加速后端,包括飞桨提供的 FastDeploy 等;此外还有一套自研加速后端,通过图优化、图转换和加速运行时三部分对模型进行整体的推理加速; 算子库:除了使能业界最优的常见计算算子库 以上就是 AIAK-Inference 推理加速套件的整体介绍,我们接下来看看如何在百度智能云上使用推理加速套件。

    1.1K10编辑于 2023-03-29
  • 来自专栏AI研习社

    Github 项目推荐 | Windows 10上的 GPU 加速深度学习工具

    有很多工具能够帮助开发者在 Linux 和 Mac 上构建深度学习环境(比如 Tensorflow,不幸的是,TensorFlow 无法在 Windows 上轻松安装),但是很少人关注如何在 Win10 设备上有效构建深度学习环境。大多数人关注的是如何让深度学习框架运行在 Win10 设备的 Ubuntu VM 上,这不是最优的解决方案。

    1.9K20发布于 2018-07-26
  • 来自专栏深度学习与python

    AI 训练加速原理解析与工程实践分享 | Q推荐

    ; 第三部分介绍百度百舸平台的 AI 训练加速套件 AIAK-Training 在一些模型训练加速上的实践效果。 为了加速计算效率,一般都是通过 GPU 等异构加速芯片来进行训练和推理。 另外,从深度学习模型发展历程来看,为了能够持续突破模型的精度上限,模型参数量其实在快速的膨胀。 ,包括数据湖存储加速套件 RapidFS,AI 训练加速套件 AIAK-Training,AI 推理加速套件 AIAK-Inference; AI 容器层,也即是资源调度层,利用云原生的技术能力,满足 训练性能开销分析和加速方案 在介绍 AIAK-Training 具体效果之前,我们先介绍下训练加速这个话题下关键的技术思路和方案原理是什么样的。 然后从单卡扩展到多卡,目标是如何达到线性加速比。线性加速比这个指标,简单来说就是从 1 张卡扩到 2 张卡训练时,训练的性能是否是单卡的2倍。

    1.2K11编辑于 2023-03-29
  • 来自专栏Java实战博客

    WordPress加速 – Redis加速 – Opcache加速

    本页目录 Redis加速 Opcache – PHP脚本加速 任何网站的加速都离不开缓存,Wordpress也是一样,我们本次采用Redis做Wordpress的缓存! 同时我们采用Opcache给PHP脚本加速! Redis加速 我们去宝塔,下载一个Redis,然后启动Redis,然后配置文件配置如下。 // 设置使用的Redis库 define( 'WP_REDIS_DATABASE', 0 ); Opcache – PHP脚本加速 在宝塔里安装一下。

    3.4K10编辑于 2022-11-18
  • 来自专栏编程微刊

    推荐一款稳定快速免费的前端开源项目 CDN 加速服务

    CDN的通俗理解就是网站加速,CPU均衡负载。 今天要推荐一款稳定、快速、免费的前端开源项目 CDN 加速服务。 推荐网址BootCDN:http://www.bootcdn.cn/ 在学习JS过程中, 会接触到好多类库和框架, 比如jquery, bootstrap, backbone,react,等, 每次下载下来 BootCDN是Bootstrap 中文网支持并维护的前端开源项目免费 CDN 服务,致力于为 Bootstrap、jQuery、Angular、Vuejs 一样优秀的前端开源项目提供稳定、快速的免费 CDN 加速服务 同时也提供的稳定、快速、免费的前端开源项目 CDN 加速服务是国内能用的开源项目最多的cdn, 支持https, 而且开源项目版本更新很快.所收录的开源项目主要同步于 cdnjs 仓库。

    5.1K10发布于 2018-09-19
  • 来自专栏云计算行业

    官方推荐 | 《2分钟带你认识腾讯云全站加速网络 ECDN》

    关注腾讯云大学,了解最新行业技术动态  戳【阅读原文】查看55个腾讯云产品全集 课程概述 全站加速网络(Enterprise Content Delivery Network,ECDN)提供全协议网络加速 ,适用于动静混合、纯动态、跨国、上传、协同办公等多种加速场景。 不同于专线网络或其他三层加速,ECDN 资源更为丰富,同时融合静态缓存、智能路由、协议优化、多路传输、抗抖动等自研技术,加速效果更加显著;接入便捷,功能配置灵活多样,可满足您个性化的业务需求。 【课程目标】 了解腾讯云全站加速网络 ECDN 了解腾讯云 ECDN 的特性 【课程大纲】 知识模块 简介 腾讯云全站加速网络 ECDN 腾讯云全站加速网络 ECDN 产品概述

    2K20编辑于 2023-05-29
  • 来自专栏GPUS开发者

    推荐5种让数据库快的飞起的GPU加速产品

    大多数的数学密集型应用都包含机器学习框架,也都会利用GPU的并行处理能力来加速计算。 下面为大家介绍五款提供GPU加速的数据库解决方案产品,其中有三款是商业产品,剩下的是开源产品。 它的最新版本改名叫Kinetica,不仅拥有常用的GPU加速方法,还可以利用NVIDIAGPU栈来进行加速,如NVIDIA NVLink技术,可以加快数据在GPU(或者GPU与CPU)之间的传输速度。 这种为特定数据类型存在的数据库也适合GPU加速。Blazegraph是一个使用java编写、为开源图数据库提供GPU加速的产品。 PostgreSQL数据库本身是没有GPU加速的,但是有一个专门做GPU加速的项目PG-Strom,当收到一条查询优化语句时,PG-Strom就会给出提示是否切换到GPU,如果答案是肯定的,就会立即创建一个

    2.9K90发布于 2018-04-02
  • 来自专栏编程微刊

    推荐一款稳定快速免费的前端开源项目 CDN 加速服务

    CDN的通俗理解就是网站加速,CPU均衡负载。 今天要推荐一款稳定、快速、免费的前端开源项目 CDN 加速服务。 推荐网址BootCDN:http://www.bootcdn.cn/ 在学习JS过程中, 会接触到好多类库和框架, 比如jquery, bootstrap, backbone,react,等, 每次下载下来 BootCDN是Bootstrap 中文网支持并维护的前端开源项目免费 CDN 服务,致力于为 Bootstrap、jQuery、Angular、Vuejs 一样优秀的前端开源项目提供稳定、快速的免费 CDN 加速服务 同时也提供的稳定、快速、免费的前端开源项目 CDN 加速服务是国内能用的开源项目最多的cdn, 支持https, 而且开源项目版本更新很快.所收录的开源项目主要同步于 cdnjs 仓库。

    94300编辑于 2025-05-18
  • 来自专栏笔记堡—柠檬酸冰冰

    加速狗scdn全站加速

    加速你的网站超越极限! 提高性能 让您的内容保持领先,更贴近您的用户,并在竞争中领先一步。 削减成本 通过简单的现收现付定价消除大量下载的巨大成本。

    5.5K40编辑于 2023-03-04
  • 来自专栏桃李博客

    WordPress 终极加速系列 – 加速原理

    优化方案介绍 整个优化方案分为3篇文章,争取写个由简入深的介绍,希望没有技术背景的站长都能看懂: 第一篇介绍加速的原理(本篇也就是第一篇了) 第二篇介绍加速插件 W3 Total Cache 第三篇介绍 四、加速原理 1、利用 APC 缓存 PHP 文件,这一步即可极大提高网站响应速度,尤其是后台,几乎是秒开。 如果你的机器超过8核,那么最多绑定8核也够了,Nginx 官方不推荐超过8核来分配进程。

    1.8K30编辑于 2022-10-08
  • 来自专栏AI研习社

    Github 项目推荐 | 基于 PyTorch,面向 AI 系统加速研究与开发的深度学习框架

    TorchFusion 是一个深度学习框架,主要用于 AI 系统加速研究和开发。

    80720发布于 2018-07-26
  • 来自专栏区块链领域

    AsicBoost争议– 加速还是不加速

    (《AsicBoost:一种比特币挖矿加速技术》,Hanke博士,2016年3月31日(第5版))。 “AsicBoost – 一种比特币挖矿加速技术”,Timo Hanke博士,2016年3月31日(第5版)第1页:“AsicBoost适用于所有种类的挖矿硬件和芯片设计。 “AsicBoost – 一种比特币挖矿加速技术”,Timo Hanke博士,2016年3月31日(第5版)第7页:“值得一提的是AsicBoost也可以通过软件执行,比如在GPU设备上执行。

    2.5K20发布于 2018-10-22
  • 来自专栏GPUS开发者

    解码NVIDIA RecSys-Examples:用GPU加速打造下一代推荐系统

    这个项目为开发者提供了一个实践平台,帮助他们通过多个示例理解如何使用现代深度学习技术加速推荐系统的开发。 1. 什么是推荐系统? 这个项目的目标是展示如何用现代的深度学习技术来加速推荐系统的构建过程,并且通过利用 NVIDIA GPU 的强大计算能力来提高推荐系统的训练效率和推理速度。 3.2 加速性能 NVIDIA 提供的硬件(如 GPU)和软件工具(如 CUDA、cuDNN、TensorRT)能够大幅加速推荐系统的训练和推理过程。 4.2 端到端流程 项目不仅仅提供了推荐算法的实现代码,还涵盖了整个推荐系统的开发流程,包括: 数据加载:如何从大规模的数据集中加载数据,使用 RAPIDS 加速数据处理。 模型训练:如何利用深度学习框架(如 TensorFlow 或 PyTorch)训练推荐模型,并通过 NVIDIA GPU 来加速训练过程。

    61110编辑于 2025-04-24
领券