首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏计算机视觉理论及其实现

    tf.quantization

    目录一、tf.quantization二、tf.quantization.dequantize三、tf.quantization.fake_quant_with_min_max_args四、tf.quantization.fake_quant_with_min_max_args_gradient 五、tf.quantization.fake_quant_with_min_max_vars六、tf.quantization.fake_quant_with_min_max_vars_gradient 七、tf.quantization.fake_quant_with_min_max_vars_per_channel八、tf.quantization.fake_quant_with_min_max_vars_per_channel_gradient 九、tf.quantization.quantize十、tf.quantization.quantized_concat十一、tf.quantization.quantize_and_dequantize 二、tf.quantization.dequantize将“输入”张量去量化为浮点张量。

    2K20编辑于 2022-09-03
  • 来自专栏机器学习、深度学习

    三值网络--Trained Ternary Quantization

    Trained Ternary Quantization ICLR 2017 https://github.com/TropComplique/trained-ternary-quantization set t to 0.05 in experiments on CIFAR-10 and ImageNet dataset The quantization roughly proceeds as follows Then do the initial quantization: in the model replace them by ternary values {-1, 0, +1} using some

    1.7K40发布于 2019-05-26
  • 来自专栏hotarugaliの技术分享

    2014-IEEE-JPEG Quantization tables selection by the firefly algorithm

    设 JPEG 图像的质量因数为 ,标准量化表为 ,则在进行 JPEG 压缩时所用的量化表为在标准量化表 计算公式为:

    79510编辑于 2022-03-18
  • 来自专栏产品经理的人工智能学习库

    学习向量量化 – Learning vector quantization | LVQ

    百度百科版本 学习向量量化(Learning Vector Quantization,简称LVQ)属于原型聚类,即试图找到一组原型向量来聚类,每个原型向量代表一个簇,将空间划分为若干个簇,从而对于任意的样本

    1.7K20发布于 2019-12-18
  • 来自专栏范传康的专栏

    TinyML-5:TFLite Quantization背后的运行机制

    引文 上一篇文章描述了为什么quantization 量化的int8足够运行推理,以及Quantization量化对TinyML的重要性,但是没有深入说明Quantization的实现机制,本篇博文打算从 TFlite的案例代码切入,从代码的Optimize选项展开讲TFLite背后Quantization的PTQ,QAT技术等。 Quantization 技术分类 高层次来看,TFLite的Quantization技术有两个大类: Post-training Quantization (PTQ) 训练后量化: Quantized 8-Bit Quantization and TensorFlow Lite: Speeding up mobile inference with low precision Quantization Extremely low-bit quantization Zhu, Chenzhuo, et al.

    2.9K91发布于 2021-01-17
  • 来自专栏范传康的专栏

    TinyML-4:(Quantization) 为什么int8足够用于ML

    TF-Lite 量化(Quantization )由来 当神经网络最初被开发时,最大的挑战是使它们能够工作!这意味着训练期间的准确性和速度是重中之重。 这就是Quantization量化的用处。这是一个概括性的术语,涵盖了许多不同的技术来存储数字并以比32位浮点数更紧凑的格式对其进行计算。 量化(Quantization )为什么能起作用 神经网络通过随机梯度下降进行训练;在weights上施加许多微小的推动力。 Edge IoT Devices - Part 2 Deep Compression: Compressing Deep Neural Networks With Pruning, Trained Quantization

    2.2K51发布于 2021-01-10
  • 来自专栏GiantPandaCV

    ICCV2019 高通Data-Free Quantization论文解读

    导读 这篇论文全称是《Data-Free Quantization Through Weight Equalization and Bias Correction》,来自于高通人工智能研究院,不久前被ICCV2019 8bit量化器(来自Google量化白皮书) 最后de-quantization的操作有两个作用:计算量化误差、用于恢复精度的finetune训练比如一个tensor的浮点范围是[-1,1],那么缩放系数就是 de-quantization回去的话可以看到量化的tensor恢复回来变成了[-127/127.5, 128/127.5],与原始的[-1,1]存在一些偏差,说明量化的过程是不可逆的,必定会存在量化误差 解决方法: Data-Free Quantization 算法流程 ? DFQ流程 Cross-layer equalization image.png ? 示意图 image.png ? 趣图 目前针对轻量级网络直接量化效果差的解决办法是quantization-aware training,就是在FP32模型训练收敛之后,再加入量化的操作,继续进行finetune,这个过程还是比较耗时

    1.7K30发布于 2020-08-04
  • 来自专栏AI异构

    Additive Powers-of-Two (APoT) Quantization:硬件友好的非均匀量化方法

    论文题目:Additive Powers-of-Two Quantization: A Non-uniform Discretization for Neural Networks 论文链接:https ://arxiv.org/pdf/1909.13144v2.pdf 论文代码:https://github.com/yhhhli/APoT_Quantization 摘要 本文首先提出了Additive

    3.9K42发布于 2020-10-10
  • 来自专栏机器学习、深度学习

    CNN网络加速--Performance Guaranteed Network Acceleration via High-Order Residual Quantization

    Performance Guaranteed Network Acceleration via High-Order Residual Quantization ICCV2017 本文是对 XNOR-Networks High-Order Residual Quantization XNOR 的量化步骤如下所示: ? 那么这种量化的误差是多少了? 输入的二阶残差量化表达式为 Order-Two Residual Quantization ? 我们得到对应的量化结果: ? 对于 Order-K Residual Quantization ? 3.3. 这个可以参考 opencv 中图像数据是怎么表示的,图像数据是怎么保存在内存中的 Convolution Using Order-Two Residual Quantization 二阶量化怎么卷积

    1.2K70发布于 2018-01-03
  • 来自专栏DeepHub IMBA

    大规模向量检索优化:Binary Quantization 让 RAG 系统内存占用降低 32 倍

    好在有个经过生产环境验证的方案,在保证检索性能的前提下大幅削减内存占用,它就是Binary Quantization(二值化量化) 本文会逐步展示如何搭建一个能在 30ms 内查询 3600 万+向量的 float32 query embedding query_embedding = embed_model.get_query_embedding(query) # Apply binary quantization

    32010编辑于 2025-12-30
  • chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat

    问题分析和解决方法: chatGLM 加载模型时会自动编译两个c文件并加载:quantization_kernels_parallel.c 和 quantization_kernels.c 这两个文件是以 base64存在模型文件夹的 quantization.py 中的,加载模型时会解码写出文件。 这里 quantization_kernels_parallel.c 的编译成功,但加载时报错: FileNotFoundError: Could not find module '[略]\quantization_kernels_parallel.so 但是并没有影响,因为它会再尝试编译和加载 quantization_kernels ,这次是成功的,他们的目的是一样的,所以有一个成功,就能启动。 -shared -o quantization_kernels_parallel.so gcc -fPIC -pthread -fopenmp -std=c99 quantization_kernels.c

    21410编辑于 2025-07-17
  • 来自专栏大模型成长之路

    ​【大模型学习 | 量化】pytorch量化基础知识(1)

    )非对称量化(Affine Quantization)特性 对称量化(Symmetric Quantization)非对称量化(Affine Quantization) 零点位置固定为0 Other quantization configurations such as selecting# symmetric or asymmetric quantization and MinMax unchanged after quantization since quantization apis change the input modelmodel_to_quantize = copy.deepcopy aware training for static quantization#model_to_quantize = copy.deepcopy(model_fp)qconfig_mapping = import prepare_pt2efrom torch.export import export_for_trainingfrom torch.ao.quantization.quantizer

    51210编辑于 2025-06-25
  • 来自专栏GiantPandaCV

    深度学习框架量化感知训练的思考及OneFlow的一种解决方案

    quantization_resnet18 = quantization_resnet18.to("cuda") quantization_resnet18.eval() checkpoint = flow.load __init__() self.quantization_bit = quantization_bit self.quantization_scheme = quantization_scheme self.quantization_formula = quantization_formula self.per_layer_quantization = per_layer_quantization , quantization_bit=quantization_bit, quantization_scheme=quantization_scheme, , quantization_bit=quantization_bit, quantization_scheme=quantization_scheme,

    1.3K30发布于 2021-10-20
  • 来自专栏GiantPandaCV

    基于OneFlow实现量化感知训练

    (quantization_formula=quantization_formula, quantization_bit=quantization_bit, ... quantization_scheme (quantization_formula=quantization_formula, quantization_bit=quantization_bit, ... quantization_scheme (quantization_formula=quantization_formula, quantization_bit=quantization_bit, ... quantization_scheme =quantization_formula, quantization_bit=quantization_bit, quantization_scheme=quantization_scheme) quantization_formula=quantization_formula, per_layer_quantization=per_layer_quantization) self.quantization

    1K30发布于 2021-08-19
  • 来自专栏CVer

    [计算机视觉论文速递] 2018-07-07 CVPR 图像分割专场1

    Amusi觉得这段英文读起来更舒服(绝不是偷懒哦) 《Quantization of Fully Convolutional Networks for Accurate Biomedical Image Illustration of quantization framework based on the suggestive annotation framework ? At the same time, quantization of DNNs has become an ac- tive research topic, which aims to represent In this paper, we apply quantization techniques to FCNs for accurate biomedical image segmentation. We develop two new quantization processes for this framework: (1) suggestive annotation with quantiza

    72420发布于 2018-07-24
  • 来自专栏AI人工智能

    模型量化大揭秘:INT8、INT4量化对推理速度和精度的影响测试

    self.scales = quantization_result['scales'] self.zero_points = quantization_result['zero_points _learnable_quantization, 'mixed_bit_quantization': self. _mixed_bit_quantization, 'knowledge_distillation_quantization': self. _kd_quantization, 'hardware_aware_quantization': self. _hardware_aware_quantization } def _learnable_quantization(self, model): """可学习量化 -

    2.1K21编辑于 2025-08-20
  • 来自专栏AI研习社

    TensorFlow 模型优化工具包:模型大小减半,精度几乎不变!

    近日,TensorFlow 强势推出能将模型规模压缩却几乎不影响精度的半精度浮点量化(float16 quantization)工具。小体积、高精度,还能够有效的改善 CPU 和硬件加速器延迟。 Float16 Quantization 我们非常高兴能够将训练后的 float16 quantization 作为模型优化工具包(Model Optimization Toolkit)的一部分。 训练后的 float16 quantization 是量化 TensorFlow Lite 模型很好的方法,因为它对精度的影响极小并且能够使得模型大小显著减小。 模型尺寸测试结果 训练后的 float16 quantization 对精度的影响很小,并可以使得深度学习模型的大小减小约 2 倍。 图 4 不同模型下精度损失测试结果 如何使用 float16 quantization 工具 用户可以在 TensorFlow Lite converter 上指定训练后的 float16 quantization

    1.9K30发布于 2019-08-15
  • 来自专栏GiantPandaCV

    INT4量化用于目标检测

    : 1、Hardware-friendly end-to-end quantization现有的一些量化算法(Dorefa-net、《Quantized neural networks:Training 2、Low bitwidth quantization on complex tasks超低bit的量化如binary NN和Ternary NN精度上难以满足,8-bit的量化算法比较成熟,再低bit 在IAO中,低于8-bit的quantization-aware finetune会不稳定且难以收敛。 作者发现,糟糕的精度和收敛是量化模型的一些敏感操作的不稳定造成的。 针对上述的问题,采用下面的trick来提升quantization-aware finetune:1、在做quantization-aware finetune时候,固定bn层的参数;然后归一化activation 在quantization-aware finetune中,固定bn的参数,不更新bn的均值和方差。

    1.3K20发布于 2021-03-24
  • 来自专栏贾志刚-OpenCV学堂

    轻松学Pytorch之量化支持

    默认设置fbgemm # set the qconfig for PTQ qconfig = torch.quantization.get_default_qconfig('fbgemm') # or, set the qconfig for QAT qconfig = torch.quantization.get_default_qat_qconfig('fbgemm') # set the qengine ('qnnpack') # or, set the qconfig for QAT qconfig = torch.quantization.get_default_qat_qconfig('qnnpack Other quantization configurations such # as selecting symmetric or assymetric quantization and MinMax 参考: https://pytorch.org/docs/stable/quantization.html https://arxiv.org/pdf/1506.02025.pdf

    2.1K10编辑于 2021-12-17
  • 来自专栏有三AI

    【杂谈】当前模型量化有哪些可用的开源工具?

    https://github.com/pytorch/glow/blob/master/docs/Quantization.md https://github.com/pytorch/QNNPACK 另外 microsoft/nni keras,Core ML的相关量化开源工具如下 https://github.com/google/qkeras https://github.com/kingreza/quantization [1] 论文Incremental Network Quantization: Towards Lossless CNNs with Low-Precision Weights by英特尔https:/ /github.com/AojunZhou/Incremental-Network-Quantization [2] 论文FINN: A Framework for Fast, Scalable Binarized neural networks by FaceBook https://github.com/facebookresearch/kill-the-bits [4] 论文LQ-Nets: Learned Quantization

    2.4K21发布于 2019-12-25
领券