- maxpooling 的 max 函数关于某变量的偏导也是分段的,关于它就是 1,不关于它就是 0;
- BP 是反向传播求关于参数的偏导,SGD 则是梯度更新,是优化算法;
1. 一个实例
relu = tf.nn.relu(tf.matmul(x, W) + b)
C = [...]
[db, dW, dx] = tf.gradient(C, [b, w, x])
文章标签 反向传播 优化算法 TensorFlow 学习 文章分类 代码人生
relu = tf.nn.relu(tf.matmul(x, W) + b)
C = [...]
[db, dW, dx] = tf.gradient(C, [b, w, x])
文章目录
当gradient<1时产生梯度消失,gradient>1产生梯度爆炸,定义、产生原因都类似。
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M