深度学习轻量化模块深度神经网络轻量化_西门吹雪的技术博客_51CTO博客

深度学习轻量化模块深度神经网络轻量化

关注西门吹雪

文章目录

神经网络低比特量化——LSQ
摘要
方法
实验结果
消融实验

深度学习轻量化模块深度神经网络轻量化

转载

西门吹雪 2024-01-03 14:59:40

文章标签 深度学习轻量化模块深度学习模型压缩量化 LSQ 文章分类 stable diffusion AIGC

神经网络低比特量化——LSQ

摘要
方法

量化计算公式
STEP SIZE GRADIENT
STEP SIZE GRADIENT SCALE
直通估计器

实验结果

Weight Decay
ImageNet
Accuracy VS. Model Size

消融实验

Step Size Gradient Scale Impact
添加知识蒸馏提高精度

本文为IBM的量化工作，发表在ICLR 2020。论文题目：Learned Step Size Quantization。为了解决量化精度越低，模型识别率越低的问题，本文引入了一种新的手段来估计和扩展每个权重和激活层的量化器步长大小的任务损失梯度，并在 ImageNet 上的实验和分析证明了所提出的方法的有效性, 实现了ResNet 4 bit量化不掉精度！
论文链接：Learned Step Size Quantization
源码链接（非官方复现）：https://github.com/zhutmost/lsq-net

摘要

在推理时以低精度操作运行的深度网络比高精度具有功耗和存储优势，但需要克服随着精度降低而保持高精度的挑战。在这里，本文提出了一种训练此类网络的方法，即 Learned Step Size Quantization，当使用来自各种架构的模型时，该方法在 ImageNet 数据集上实现了 SOTA 的精度，其权重和激活量化为2、3或4 bit 精度，并且可以训练达到全精度基线精度的3 bit 模型。本文的方法建立在现有的量化网络中学习权重的方法基础上，通过改进量化器本身的配置方式。具体来说，本文引入了一种新的手段来估计和扩展每个权重和激活层的量化器步长大小的任务损失梯度，这样它就可以与其他网络参数一起学习。这种方法可以根据给定系统的需要使用不同的精度水平工作，并且只需要对现有的训练代码进行简单的修改。

方法

量化计算公式

$深度学习轻量化模块深度神经网络轻量化_深度学习$

$深度学习轻量化模块深度神经网络轻量化_量化_02$

s为量化的 STEP SIZE 可学习参数。s即是数据的缩放因子，又能控制数据截断的边界。
针对weights： $深度学习轻量化模块深度神经网络轻量化_模型压缩_03$
针对data： $深度学习轻量化模块深度神经网络轻量化_LSQ_04$

深度学习轻量化模块深度神经网络轻量化_量化_05

STEP SIZE GRADIENT

$深度学习轻量化模块深度神经网络轻量化_模型压缩_06$

深度学习轻量化模块深度神经网络轻量化_LSQ_07

STEP SIZE GRADIENT SCALE

当量化比特数增加时，step-size会变小，以确保更为精细的量化；而当量化比特数减少时，step-size会变大。为了让step-size的参数更新，能够适应量化比特数的调整，需要将step-size的梯度乘以一个scale系数。

权重： $深度学习轻量化模块深度神经网络轻量化_模型压缩_08$ ， $深度学习轻量化模块深度神经网络轻量化_LSQ_09$ 代表当前层的权重数。
激活： $深度学习轻量化模块深度神经网络轻量化_模型压缩_10$ ， $深度学习轻量化模块深度神经网络轻量化_量化_11$ 代表当前层的特征数。

深度学习轻量化模块深度神经网络轻量化_量化_12

直通估计器

量化的权重和激活用于前向和反向传递，通过 Bengio 提出的直通估计器（STE）计算，如下公式：
$深度学习轻量化模块深度神经网络轻量化_深度学习_13$

实验结果

Weight Decay

深度学习轻量化模块深度神经网络轻量化_LSQ_14

ImageNet

深度学习轻量化模块深度神经网络轻量化_量化_15

Accuracy VS. Model Size

深度学习轻量化模块深度神经网络轻量化_模型压缩_16

消融实验

Step Size Gradient Scale Impact

深度学习轻量化模块深度神经网络轻量化_深度学习_17

添加知识蒸馏提高精度

深度学习轻量化模块深度神经网络轻量化_深度学习轻量化模块_18

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：Stackelberg博弈 python stackelberg博弈和nash博弈的区别

下一篇：硬件防火墙架构体系有哪几种硬件防火墙安装图

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册