搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏计算机视觉理论及其实现
tf.quantization
目录一、tf.quantization二、tf.quantization.dequantize三、tf.quantization.fake_quant_with_min_max_args四、tf.quantization.fake_quant_with_min_max_args_gradient 五、tf.quantization.fake_quant_with_min_max_vars六、tf.quantization.fake_quant_with_min_max_vars_gradient 七、tf.quantization.fake_quant_with_min_max_vars_per_channel八、tf.quantization.fake_quant_with_min_max_vars_per_channel_gradient 九、tf.quantization.quantize十、tf.quantization.quantized_concat十一、tf.quantization.quantize_and_dequantize 二、tf.quantization.dequantize将“输入”张量去量化为浮点张量。
2K20编辑于 2022-09-03
来自专栏机器学习、深度学习
三值网络--Trained Ternary Quantization
Trained Ternary Quantization ICLR 2017 https://github.com/TropComplique/trained-ternary-quantization set t to 0.05 in experiments on CIFAR-10 and ImageNet dataset The quantization roughly proceeds as follows Then do the initial quantization: in the model replace them by ternary values {-1, 0, +1} using some
1.7K40发布于 2019-05-26
来自专栏hotarugaliの技术分享
2014-IEEE-JPEG Quantization tables selection by the firefly algorithm
设 JPEG 图像的质量因数为，标准量化表为，则在进行 JPEG 压缩时所用的量化表为在标准量化表计算公式为：
79510编辑于 2022-03-18
来自专栏产品经理的人工智能学习库
学习向量量化 – Learning vector quantization | LVQ
百度百科版本学习向量量化(Learning Vector Quantization,简称LVQ)属于原型聚类，即试图找到一组原型向量来聚类，每个原型向量代表一个簇，将空间划分为若干个簇，从而对于任意的样本
1.7K20发布于 2019-12-18
来自专栏范传康的专栏
TinyML-5:TFLite Quantization背后的运行机制
引文上一篇文章描述了为什么quantization 量化的int8足够运行推理，以及Quantization量化对TinyML的重要性，但是没有深入说明Quantization的实现机制，本篇博文打算从 TFlite的案例代码切入，从代码的Optimize选项展开讲TFLite背后Quantization的PTQ，QAT技术等。 Quantization 技术分类高层次来看，TFLite的Quantization技术有两个大类： Post-training Quantization （PTQ）训练后量化： Quantized 8-Bit Quantization and TensorFlow Lite: Speeding up mobile inference with low precision Quantization Extremely low-bit quantization Zhu, Chenzhuo, et al.
2.9K91发布于 2021-01-17
来自专栏范传康的专栏
TinyML-4：（Quantization）为什么int8足够用于ML
TF-Lite 量化（Quantization ）由来当神经网络最初被开发时，最大的挑战是使它们能够工作！这意味着训练期间的准确性和速度是重中之重。这就是Quantization量化的用处。这是一个概括性的术语，涵盖了许多不同的技术来存储数字并以比32位浮点数更紧凑的格式对其进行计算。量化（Quantization ）为什么能起作用神经网络通过随机梯度下降进行训练；在weights上施加许多微小的推动力。 Edge IoT Devices - Part 2 Deep Compression: Compressing Deep Neural Networks With Pruning, Trained Quantization
2.2K51发布于 2021-01-10
来自专栏GiantPandaCV
ICCV2019 高通Data-Free Quantization论文解读
导读这篇论文全称是《Data-Free Quantization Through Weight Equalization and Bias Correction》，来自于高通人工智能研究院，不久前被ICCV2019 8bit量化器(来自Google量化白皮书) 最后de-quantization的操作有两个作用：计算量化误差、用于恢复精度的finetune训练比如一个tensor的浮点范围是[-1,1]，那么缩放系数就是 de-quantization回去的话可以看到量化的tensor恢复回来变成了[-127/127.5, 128/127.5]，与原始的[-1,1]存在一些偏差，说明量化的过程是不可逆的，必定会存在量化误差解决方法: Data-Free Quantization 算法流程 ? DFQ流程 Cross-layer equalization image.png ? 示意图 image.png ? 趣图目前针对轻量级网络直接量化效果差的解决办法是quantization-aware training，就是在FP32模型训练收敛之后，再加入量化的操作，继续进行finetune，这个过程还是比较耗时
1.7K30发布于 2020-08-04
来自专栏AI异构
Additive Powers-of-Two (APoT) Quantization：硬件友好的非均匀量化方法
论文题目：Additive Powers-of-Two Quantization: A Non-uniform Discretization for Neural Networks 论文链接：https ://arxiv.org/pdf/1909.13144v2.pdf 论文代码：https://github.com/yhhhli/APoT_Quantization 摘要本文首先提出了Additive
3.9K42发布于 2020-10-10
来自专栏机器学习、深度学习
CNN网络加速--Performance Guaranteed Network Acceleration via High-Order Residual Quantization
Performance Guaranteed Network Acceleration via High-Order Residual Quantization ICCV2017 本文是对 XNOR-Networks High-Order Residual Quantization XNOR 的量化步骤如下所示： ? 那么这种量化的误差是多少了？输入的二阶残差量化表达式为 Order-Two Residual Quantization ? 我们得到对应的量化结果： ? 对于 Order-K Residual Quantization ? 3.3. 这个可以参考 opencv 中图像数据是怎么表示的，图像数据是怎么保存在内存中的 Convolution Using Order-Two Residual Quantization 二阶量化怎么卷积
1.2K70发布于 2018-01-03
来自专栏DeepHub IMBA
大规模向量检索优化：Binary Quantization 让 RAG 系统内存占用降低 32 倍
好在有个经过生产环境验证的方案，在保证检索性能的前提下大幅削减内存占用，它就是Binary Quantization（二值化量化）本文会逐步展示如何搭建一个能在 30ms 内查询 3600 万+向量的 float32 query embedding query_embedding = embed_model.get_query_embedding(query) # Apply binary quantization
32010编辑于 2025-12-30
chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat
问题分析和解决方法： chatGLM 加载模型时会自动编译两个c文件并加载：quantization_kernels_parallel.c 和 quantization_kernels.c 这两个文件是以 base64存在模型文件夹的 quantization.py 中的，加载模型时会解码写出文件。这里 quantization_kernels_parallel.c 的编译成功，但加载时报错： FileNotFoundError: Could not find module '[略]\quantization_kernels_parallel.so 但是并没有影响，因为它会再尝试编译和加载 quantization_kernels ，这次是成功的，他们的目的是一样的，所以有一个成功，就能启动。 -shared -o quantization_kernels_parallel.so gcc -fPIC -pthread -fopenmp -std=c99 quantization_kernels.c
21410编辑于 2025-07-17
来自专栏大模型成长之路
【大模型学习 | 量化】pytorch量化基础知识（1）
）非对称量化（Affine Quantization）特性对称量化（Symmetric Quantization）非对称量化（Affine Quantization）零点位置固定为0 Other quantization configurations such as selecting# symmetric or asymmetric quantization and MinMax unchanged after quantization since quantization apis change the input modelmodel_to_quantize = copy.deepcopy aware training for static quantization#model_to_quantize = copy.deepcopy(model_fp)qconfig_mapping = import prepare_pt2efrom torch.export import export_for_trainingfrom torch.ao.quantization.quantizer
51210编辑于 2025-06-25
来自专栏GiantPandaCV
深度学习框架量化感知训练的思考及OneFlow的一种解决方案
quantization_resnet18 = quantization_resnet18.to("cuda") quantization_resnet18.eval() checkpoint = flow.load __init__() self.quantization_bit = quantization_bit self.quantization_scheme = quantization_scheme self.quantization_formula = quantization_formula self.per_layer_quantization = per_layer_quantization , quantization_bit=quantization_bit, quantization_scheme=quantization_scheme, , quantization_bit=quantization_bit, quantization_scheme=quantization_scheme,
1.3K30发布于 2021-10-20
来自专栏GiantPandaCV
基于OneFlow实现量化感知训练
(quantization_formula=quantization_formula, quantization_bit=quantization_bit, ... quantization_scheme (quantization_formula=quantization_formula, quantization_bit=quantization_bit, ... quantization_scheme (quantization_formula=quantization_formula, quantization_bit=quantization_bit, ... quantization_scheme =quantization_formula, quantization_bit=quantization_bit, quantization_scheme=quantization_scheme) quantization_formula=quantization_formula, per_layer_quantization=per_layer_quantization) self.quantization
1K30发布于 2021-08-19
来自专栏CVer
[计算机视觉论文速递] 2018-07-07 CVPR 图像分割专场1
Amusi觉得这段英文读起来更舒服（绝不是偷懒哦）《Quantization of Fully Convolutional Networks for Accurate Biomedical Image Illustration of quantization framework based on the suggestive annotation framework ? At the same time, quantization of DNNs has become an ac- tive research topic, which aims to represent In this paper, we apply quantization techniques to FCNs for accurate biomedical image segmentation. We develop two new quantization processes for this framework: (1) suggestive annotation with quantiza
72420发布于 2018-07-24
来自专栏AI人工智能
模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试
self.scales = quantization_result['scales'] self.zero_points = quantization_result['zero_points _learnable_quantization, 'mixed_bit_quantization': self. _mixed_bit_quantization, 'knowledge_distillation_quantization': self. _kd_quantization, 'hardware_aware_quantization': self. _hardware_aware_quantization } def _learnable_quantization(self, model): """可学习量化 -
2.1K21编辑于 2025-08-20
来自专栏AI研习社
TensorFlow 模型优化工具包：模型大小减半，精度几乎不变！
近日，TensorFlow 强势推出能将模型规模压缩却几乎不影响精度的半精度浮点量化（float16 quantization）工具。小体积、高精度，还能够有效的改善 CPU 和硬件加速器延迟。 Float16 Quantization 我们非常高兴能够将训练后的 float16 quantization 作为模型优化工具包（Model Optimization Toolkit）的一部分。训练后的 float16 quantization 是量化 TensorFlow Lite 模型很好的方法，因为它对精度的影响极小并且能够使得模型大小显著减小。模型尺寸测试结果训练后的 float16 quantization 对精度的影响很小，并可以使得深度学习模型的大小减小约 2 倍。图 4 不同模型下精度损失测试结果如何使用 float16 quantization 工具用户可以在 TensorFlow Lite converter 上指定训练后的 float16 quantization
1.9K30发布于 2019-08-15
来自专栏GiantPandaCV
INT4量化用于目标检测
： 1、Hardware-friendly end-to-end quantization现有的一些量化算法（Dorefa-net、《Quantized neural networks:Training 2、Low bitwidth quantization on complex tasks超低bit的量化如binary NN和Ternary NN精度上难以满足，8-bit的量化算法比较成熟，再低bit 在IAO中，低于8-bit的quantization-aware finetune会不稳定且难以收敛。作者发现，糟糕的精度和收敛是量化模型的一些敏感操作的不稳定造成的。针对上述的问题，采用下面的trick来提升quantization-aware finetune：1、在做quantization-aware finetune时候，固定bn层的参数；然后归一化activation 在quantization-aware finetune中，固定bn的参数，不更新bn的均值和方差。
1.3K20发布于 2021-03-24
来自专栏贾志刚-OpenCV学堂
轻松学Pytorch之量化支持
默认设置fbgemm # set the qconfig for PTQ qconfig = torch.quantization.get_default_qconfig('fbgemm') # or, set the qconfig for QAT qconfig = torch.quantization.get_default_qat_qconfig('fbgemm') # set the qengine ('qnnpack') # or, set the qconfig for QAT qconfig = torch.quantization.get_default_qat_qconfig('qnnpack Other quantization configurations such # as selecting symmetric or assymetric quantization and MinMax 参考： https://pytorch.org/docs/stable/quantization.html https://arxiv.org/pdf/1506.02025.pdf
2.1K10编辑于 2021-12-17
来自专栏有三AI
【杂谈】当前模型量化有哪些可用的开源工具？
https://github.com/pytorch/glow/blob/master/docs/Quantization.md https://github.com/pytorch/QNNPACK 另外 microsoft/nni keras，Core ML的相关量化开源工具如下 https://github.com/google/qkeras https://github.com/kingreza/quantization [1] 论文Incremental Network Quantization: Towards Lossless CNNs with Low-Precision Weights by英特尔https:/ /github.com/AojunZhou/Incremental-Network-Quantization [2] 论文FINN: A Framework for Fast, Scalable Binarized neural networks by FaceBook https://github.com/facebookresearch/kill-the-bits [4] 论文LQ-Nets: Learned Quantization
2.4K21发布于 2019-12-25

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

tf.quantization

三值网络--Trained Ternary Quantization

2014-IEEE-JPEG Quantization tables selection by the firefly algorithm

学习向量量化 – Learning vector quantization | LVQ

TinyML-5:TFLite Quantization背后的运行机制

TinyML-4：（Quantization）为什么int8足够用于ML

ICCV2019 高通Data-Free Quantization论文解读

Additive Powers-of-Two (APoT) Quantization：硬件友好的非均匀量化方法

CNN网络加速--Performance Guaranteed Network Acceleration via High-Order Residual Quantization

大规模向量检索优化：Binary Quantization 让 RAG 系统内存占用降低 32 倍

chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat

【大模型学习 | 量化】pytorch量化基础知识（1）

深度学习框架量化感知训练的思考及OneFlow的一种解决方案

基于OneFlow实现量化感知训练

[计算机视觉论文速递] 2018-07-07 CVPR 图像分割专场1

模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试

TensorFlow 模型优化工具包：模型大小减半，精度几乎不变！

INT4量化用于目标检测

轻松学Pytorch之量化支持

【杂谈】当前模型量化有哪些可用的开源工具？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

tf.quantization

三值网络--Trained Ternary Quantization

2014-IEEE-JPEG Quantization tables selection by the firefly algorithm

学习向量量化 – Learning vector quantization | LVQ

TinyML-5:TFLite Quantization背后的运行机制

TinyML-4：（Quantization） 为什么int8足够用于ML

ICCV2019 高通Data-Free Quantization论文解读

Additive Powers-of-Two (APoT) Quantization：硬件友好的非均匀量化方法

CNN网络加速--Performance Guaranteed Network Acceleration via High-Order Residual Quantization

大规模向量检索优化：Binary Quantization 让 RAG 系统内存占用降低 32 倍

chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat

​【大模型学习 | 量化】pytorch量化基础知识（1）

深度学习框架量化感知训练的思考及OneFlow的一种解决方案

基于OneFlow实现量化感知训练

[计算机视觉论文速递] 2018-07-07 CVPR 图像分割专场1

模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试

TensorFlow 模型优化工具包：模型大小减半，精度几乎不变！

INT4量化用于目标检测

轻松学Pytorch之量化支持

【杂谈】当前模型量化有哪些可用的开源工具？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

TinyML-4：（Quantization）为什么int8足够用于ML

【大模型学习 | 量化】pytorch量化基础知识（1）