搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

NPU上运行onnxruntime
2 解决办法通过查找onnxruntime社区，可以发现npu已经对onnxruntime进行了适配，参考如下文档：onnxruntime/docs/execution-providers/community-maintained 0, "arena_extend_strategy": "kNextPowerOfTwo", "npu_mem_limit
89410编辑于 2025-03-10
来自专栏韦东山嵌入式
TinaLinux NPU开发
NPU V851s 芯片内置一颗 NPU，其处理性能为最大 0.5 TOPS 并有 128KB 内部高速缓存用于高速数据交换 NPU 系统架构 NPU 的系统架构如下图所示：上层的应用程序可以通过加载模型与数据到 NPU 进行计算，也可以使用 NPU 提供的软件 API 操作 NPU 执行计算。 NPU 支持 UINT8，INT8，INT16 三种数据格式。 NPU 模型转换 NPU 使用的模型是 NPU 自定义的一类模型结构，不能直接将网络训练出的模型直接导入 NPU 进行计算。这就需要将网络训练出的转换模型到 NPU 的模型上。 NPU 的模型转换步骤如下图所示： NPU 模型转换包括准备阶段、量化阶段与验证阶段。 NPU 的开发流程 NPU 开发完整的流程如下图所示: 模型训练在模型训练阶段，用户根据需求和实际情况选择合适的框架（如Caffe、TensorFlow 等）使用数据集进行训练得到符合需求的模型，此模型可称为预训练模型
1.1K10编辑于 2024-08-24
Torch-npu报错定位技巧
1，训练功能问题定位思路训练功能问题定位思路Torch-npu错误码CANN错误码2，精度问题定位思路精度问题定位思路3，未知错误定位技巧3.1 通过torch.npu.synchronize定位案例：解决方案：使用torch.npu.synchronize()排查报错位置。 ()2、代码没有挂在新增的torch.npu.synchronize()如果是第一种，则说明真实报错点在新增的torch.npu.synchronize()之前如果是第二种，则说明真实报错点在新增的torch.npu.synchronize ()之后第三步：不停地打torch.npu.synchronize()，直到找打这一行：它前面的torch.npu.synchronize()没有报错，它后面的torch.npu.synchronize /torch_npu打开dbg文件夹：第二步：如果调用栈是libtorch_npu.so内的函数为问号，则将libtorch_npu.so.debug拷贝到/root/miniforge-pypy3/envs
63900编辑于 2025-01-16
来自专栏镁客网
诞生七年的NPU
策划&撰写：家衡 NPU（Neural Processing Unit，神经网络处理器），一直都是华为发布会上的热门词汇，这次的麒麟9000同样将NPU标记在芯片结构图的C位。如今距离提出NPU的概念已经过去了七年，AI芯片在手机端的发展似乎并不如人意。如何理解NPU 传统CPU进行累加计算时，效率非常低，但当GPU做类似的计算，效率就会高很多。 NPU的工作就类比大脑，在手机中模拟所有可行的方案，并从中挑选一个最优解。有了NPU之后，手机的AI性能就能得到大幅的提升。从麒麟970的单核NPU、到最新的麒麟9000的2+1三核NPU，NPU的升级也伴着华为的AI技术的发展，最能直观体会到的就摄像功能带来的进步。但即便NPU功能十分强大，如今NPU在手机日常的应用领域还处于初级阶段，它的重要性还远不如CPU、GPU和ISP，属于锦上添花的存在。
1.8K40发布于 2020-11-09
来自专栏uu的自留地
嵌入式 NPU 发展概况
关键词：芯片；嵌入式；ASIC；NPU；DSA； Overview of Embedded NPU Development Abstract: NPU, as a dedicated embedded Key Words: Chip; Embedded device; ASIC; NPU; DSA; 什么是 NPU 　　人工智能加速器 NPU (Neural-network Processing Unit NPU的诞生、功能、应用 NPU的诞生　　长期以来，应用需求一直牵动着嵌入式技术、芯片技术的发展方向。 NPU 的应用　　NPU 目前较多的在端侧应用于 AI 推理计算，在云端也有大量运用于视频编解码运算、自然语言处理、数据分析，部分NPU还能运用于 AI 的训练。华为 DaVince NPU 华为手机从麒麟810芯片开始使用自研的达芬奇架构集成NPU，大大提升了芯片的AI处理能力，至今采用了华为NPU的手机AI高性能计算仍是卖点之一。
6.3K10编辑于 2022-03-02
来自专栏VoiceVista语音智能
ARM DevSummit - CNN Enhanced Inference on ARM NPU
From Deeplite.ai http://mpvideo.qpic.cn/0bf2eiaaiaaaiqagjcdw2vqvaiwdaqraabaa.f10002.mp4?dis_k=62fb42
90420发布于 2021-11-05
来自专栏算法之名
RK35XX NPU开发指南
conda create -n py38 python=3.8.0 source activate conda activate py38 下载RK35XX开发板的NPU SDK，下载地址https:/ install libxslt1-dev zlib1g-dev libglib2.0 libsm6 libgl1-mesa-glx libprotobuf-dev gcc 安装Python组件 cd RK_NPU_SDK /RK_NPU_SDK_1.5.2/release unzip rknn-toolkit2-1.5.2.zip cd rknn-toolkit2-1.5.2/doc pip install -r requirements_cp38 -1.5.2.txt -i https://mirror.baidu.com/pypi/simple 安装NPU SDK Python组件 cd .. perf_debug=False, eval_mem=False, async_mode=False, core_mask=RKNN.NPU_CORE_AUTO
1.1K30编辑于 2023-10-29
传AMD计划推出NPU加速卡
7月31日消息，据外媒《CRN》报导，AMD 副总裁暨客户端业务事业群总经理Rahul Tikoo 近日表示，AMD正在研究推出独立的NPU加速卡，以协助推动实现“人人可用AI 计算”的目标。目前AI PC 多以 SoC 内置NPU 为主，而一些对于性能要求更高的桌面PC与专业工作站仍主要依赖GPU 作为AI加速器，使得GPU长时间高负载运行功耗高，且需与图形运算共享资源，这也限制了部分AI 相比之下，如果独立的NPU加速卡能在低功耗下提供专用计算性能，将减轻GPU 与CPU 负担，提升整体效率。 AMD 可能计划利用之前收购赛灵思（Xilinx）的技术，将其并扩展至独立的NPU加速卡。随着联想、戴尔、HP 开始探索搭载独立NPU 的PC 设备，市场对专用AI 加速器需求升温。目前这款AMD NPU 仍在初步评估中，将持续观察市场发展，并视情况在适当时机结合自家CPU、GPU 与NPU 技术，循序推进AI 硬件生态布局。编辑：芯智讯-林子
10810编辑于 2026-03-19
来自专栏Android Camera开发
CPU、GPU、NPU、TPU、DPU的简单了解
NPU（Neural Processing Units，神经网络处理器）是一种专门为人工智能（AI）计算设计的处理器，主要用于高效执行神经网络相关的运算（如矩阵乘法、卷积、激活函数等）。相较于传统CPU/GPU，NPU在能效比和计算速度上更具优势，尤其适合移动设备、边缘计算和嵌入式AI场景。国产芯片如华为昇腾910系列就是华为自主研发的高性能NPU，其综合性能在国产AI芯片中处于领先地位，并在多个行业应用中展现出显著优势。
2.1K10编辑于 2025-08-09
来自专栏全志嵌入式那些事
全志V853 NPU 系统介绍
NPU 系统架构 NPU 的系统架构如下图所示：上层的应用程序可以通过加载模型与数据到 NPU 进行计算，也可以使用 NPU 提供的软件 API 操作 NPU 执行计算。 NPU 支持 UINT8，INT8，INT16 三种数据格式。 NPU 模型转换 NPU 使用的模型是 NPU 自定义的一类模型结构，不能直接将网络训练出的模型直接导入 NPU 进行计算。这就需要将网络训练出的转换模型到 NPU 的模型上。 NPU 的模型转换步骤如下图所示： NPU 模型转换包括准备阶段、量化阶段与验证阶段。模型部署实操接下来是将模型加载到 NPU 内，初始化 NPU 的环境与分配内存，然后将之前预处理的数据交给 NPU 进行计算。部署实操详见：NPU 模型的部署 FAQ （1）NPU 支持调用算子级别的运算吗？支持哪些算子？ NPU 默认使用的是网络级别的调用，但是 NPU 同时也支持算子级别的调用。
1.2K10编辑于 2024-02-02
来自专栏全志嵌入式那些事
全志V853 NPU 踩坑记录
--optimize "VIP9000PICO_PID0XEE" --viv-sdk ${VIV_SDK} 编译了vpm_run作为板子的运行器 make -f makefile.linux 成功运行npu /vpm_run sample.txt vpm_run sample.txt loop_run_coun[ 720.963277] npu[4a6][4a6] vipcore, device ini See sample.txt for details[ 720.994403] npu[4a6][4a6] gckvip_drv_init ke 723.655482] aw_vip_mem_free ion_client_destroy destroy teset resource batch_count=1 [ 723.708967] npu 723.731221] aw_vip_mem_free ion_free [ 723.735279] aw_vip_mem_free ion_client_destroy [ 723.740762] npu
55210编辑于 2024-02-02
AI计算架构对比：CPU, GPU, TPU, NPU, LPU
传统系统严重依赖CPU，而如今的AI工作负载则分布在GPU上以进行大规模并行计算，分布在NPU上以实现高效的设备端推理，以及分布在专门为神经网络执行而设计、具有优化数据流的TPU上。神经处理单元（NPU）NPU（神经处理单元）是一种专为高效、低功耗推理设计的AI加速器——特别是在边缘端。与面向大规模训练或数据中心工作负载的GPU不同，NPU针对直接在智能手机、笔记本电脑、可穿戴设备和物联网系统等设备上运行AI模型进行了优化。架构上，NPU围绕由乘加阵列、片上SRAM和最小化内存移动的优化数据路径构成的神经计算引擎构建。 NPU将优化推向边缘，通过以原始算力换取能效和低延迟，在智能手机和物联网系统等设备上实现低功耗、实时推理。
1.1K10编辑于 2026-04-22
来自专栏嵌入式Linux系统开发
CPU、GPU、TPU、NPU等到底是什么？
Central Processing Unit） GPU即图形处理器（Graphics Processing Unit） TPU即谷歌的张量处理器（Tensor Processing Unit） NPU 所谓NPU，即神经网络处理器，用电路模拟人类的神经元和突触结构。想更深理解的读者，可以往下面看，接下来详细说明。 NPU 所谓NPU(Neural network Processing Unit)，即神经网络处理器。用电路模拟人类的神经元和突触结构。神经网络中存储和处理是一体化的，都是通过突触权重来体现。 NPU的典型代表有国内的寒武纪芯片和IBM的TrueNorth。 NPU – Neural Network Processing Unit，神经网络处理器，是基于神经网络算法与加速的新型处理器总称，如中科院计算所/寒武纪公司出品的diannao系列。
8.3K21发布于 2021-05-28
来自专栏全志嵌入式那些事
全志Tina_NPU开发部署说明
1 前言 1.1 读者对象本文档（本指南）主要适用于以下人员： • 技术支持工程师 • 软件开发工程师 • AI 应用案客户 2 正文 2.1 NPU 开发简介 • 支持int8/uint8/int16 开发工具：支持模型快速转换、支持开发板端侧转换API、支持TensorFlow, TFLite, Caffe, ONNX, Darknet, pyTorch 等模型. • 提供AI 应用开发接口：提供NPU 跨平台API. 2.2 开发流程 NPU 开发完整的流程如下图所示： ###2.3 模型训练在模型训练阶段，用户根据需求和实际情况选择合适的框架（如Caffe、TensorFlow 等）进行训练得到符合需求的模型也可直接使用已经训练好的模型, 对于基于已有的算法模型部署来讲，可以不用经过模型训练阶段. 2.4 模型转换此阶段为通过Acuity Toolkit 把模型训练中得到的模型转换为NPU 可用的模型NBG 此文档主要介绍模型转换和基于NPU 程序开发，不涉及模型训练的内容。
71710编辑于 2024-08-02
来自专栏全志嵌入式那些事
全志V853的NPU的demo试玩
相关功能使用，所以在第三步将NPU扩展包安装还有配置也放进来了。 tar xvf npu_package.tar.gz 解压后的文件放在openwrt/packages/npu文件夹中： make menuconfig将NPU相关功能加进来。 PACK就是利用Tina的工具将之前make生成的文件打包，加入NPU扩展包后的img约70M，比起之前没加NPU扩展包的33M大了很多。可以看到，目录下已经有NPU扩展包的模型了，一个lenet模型，一个yolov3模型。 root@TinaLinux:/# ls /etc/models/ lenet_model.nb yolov3_model.nb （二）NPU使用 V853内置最大 1T 算力 NPU，必须用上，第一章已经把官方
58510编辑于 2024-02-02
来自专栏音视频技术
【公开课预告】：基于AI和NPU的Codec变革
3月2日晚7点LiveVideoStack特别邀请到了中兴微电子多媒体技术总监孔德辉老师为大家带来以基于AI和NPU的Codec变革为主题的内容分享。演讲内容及讲师信息：主题：基于AI和NPU的Codec变革 1. 经典编码标准在应用中的困境； 2. AI-Codec的发展现状，益处与困境； 3. AI-NPU-Codec的可能形态探讨；孔德辉中兴微电子多媒体技术总监 2017年电子科技大学博士毕业加入中兴微，专注与视频核心技术前沿探索及其与硬件加速的结合方案，负责应用与IPTV的视频核心IP
45210编辑于 2023-02-28
来自专栏FPGA/ARM/DSP技术专栏
RK3562J正式支持NPU，性价比再提升！
近期，瑞芯微在RK3562J处理器上正式开放NPU功能，使RK3562J的应用领域进一步拓展到机器视觉、工业相机、目标识别等领域，性价比得到进一步提升。 RK3562J NPU简介瑞芯微RK3562J是一款超高性价比国产工业级处理器，内置超强算力NPU，算力高达1TOPS，能够实现高效的神经网络推理计算。第二步：模型转换完成模型训练后，使用RKNN-Toolkit2将预训练模型转换为RK3562J NPU可使用的RKNN模型。 RK3562J NPU开发案例本文主要介绍基于RK3562J的NPU开发案例，适用开发环境如下。到这里，简单的NPU开发演示案例就结束了，想要查看更多RK3562J相关的案例演示，欢迎各位工程师关注公众号并下载，快来试试吧！
1.2K20编辑于 2024-12-23
OpenFold2.0 基于NPU的推理适配与测试
#下载安装 torch_npuwget https://gitee.com/ascend/pytorch/releases/download/v6.0.0.1-pytorch2.1.0/torch_npu - 2.1.0.post11-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whlpip3 install torch_npu-2.1.0 /pdb_data/mmcif_files/ --model_device "npu:0"推理测试#执行推理脚本 bash inference.sh报错与解决方法1、报错 ImportError: /usr
33510编辑于 2025-06-11
来自专栏AI学习笔记
自研芯片适配：NPU指令集定制优化
神经网络处理器（NPU）已经成为推动深度学习应用的核心力量，从智能手机的图像识别到云端的大型语言模型推理，NPU 的性能优劣直接决定了用户体验的优劣。 NPU 作为专用处理器，凭借其并行计算能力和对神经网络操作的高度优化，成为了深度学习硬件领域的明星。然而，不同应用场景对 NPU 的需求千差万别。以下是运行时库的部分代码：// npu_runtime.c#include "npu_runtime.h"void npu_execute_convolution(const float* input, 以下是部分适配代码：# tensorflow_npu_backend.pyimport tensorflow as tffrom npu_runtime import NPU_Runtimeclass run(self, fetches, feed_dict=None): # 转换计算图到NPU指令 npu_instructions = self.convert_graph_to_npu
95710编辑于 2025-07-19
来自专栏音视频技术
【今晚7点】：基于AI和NPU的Codec变革
今晚7点 LiveVideoStack特别邀请到了中兴微电子多媒体技术总监孔德辉老师为大家带来以基于AI和NPU的Codec变革为主题的内容分享。演讲内容及讲师信息：主题：基于AI和NPU的Codec变革 1. 经典编码标准在应用中的困境； 2. AI-Codec的发展现状，益处与困境； 3. AI-NPU-Codec的可能形态探讨；孔德辉中兴微电子多媒体技术总监 2017年电子科技大学博士毕业加入中兴微，专注与视频核心技术前沿探索及其与硬件加速的结合方案，负责应用与IPTV的视频核心IP
48330编辑于 2023-04-04

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

NPU上运行onnxruntime

TinaLinux NPU开发

Torch-npu报错定位技巧

诞生七年的NPU

嵌入式 NPU 发展概况

ARM DevSummit - CNN Enhanced Inference on ARM NPU

RK35XX NPU开发指南

传AMD计划推出NPU加速卡

CPU、GPU、NPU、TPU、DPU的简单了解

全志V853 NPU 系统介绍

全志V853 NPU 踩坑记录

AI计算架构对比：CPU, GPU, TPU, NPU, LPU

CPU、GPU、TPU、NPU等到底是什么？

全志Tina_NPU开发部署说明

全志V853的NPU的demo试玩

【公开课预告】：基于AI和NPU的Codec变革

RK3562J正式支持NPU，性价比再提升！

OpenFold2.0 基于NPU的推理适配与测试

自研芯片适配：NPU指令集定制优化

【今晚7点】：基于AI和NPU的Codec变革

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐