文章目录

  • 1、LambdaLR自定义学习率调整方式
  • 2、StepLR分阶段更新学习率
  • 3、MultiStepLR顶点分阶段更新学习率
  • 4、ExponentialLR指数衰减更新学习率
  • 5、CosineAnnealingLR余弦更新学习率
  • 5、ReduceLROnPlateau自适应调整学习率
  • 6、CyclicLR循环学习率
  • 7、自定义学习率
  • 8、完整的测试程序


1、LambdaLR自定义学习率调整方式

torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=-1)

optimizer:优化器

lr_lambda:自定义的何时更新学习率的lambda表达式,可以是一个lambda也可以是一个lambda表达式的列表,当参数为lambda的列表是需要保证optimizer所包含的group数量和该list长度相同否则会报错。

last_epoch:最后一个更新学习率的epoch,默认为-1,一直更新

pytorch linear层计算_学习率调整

2、StepLR分阶段更新学习率

torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)

optimizer:优化器

step_size:每多少个epoch更新一次学习率

gamma:学习率decay因子

last_epoch:最后一个更新学习率的epoch,默认为-1,一直更新

pytorch linear层计算_pytorch linear层计算_02

3、MultiStepLR顶点分阶段更新学习率

torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=-1)

optimizer:优化器

step_size:每多少个epoch更新一次学习率

milestones:需要更新学习率的epoch的列表,需要列表内的值是递增的

gamma:学习率decay因子

last_epoch:最后一个更新学习率的epoch,默认为-1,一直更新

pytorch linear层计算_学习率调整_03

4、ExponentialLR指数衰减更新学习率

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=-1)

optimizer:优化器

gamma:学习率decay因子

last_epoch:最后一个更新学习率的epoch,默认为-1,一直更新

pytorch linear层计算_pytorch linear层计算_04

5、CosineAnnealingLR余弦更新学习率

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)

optimizer:优化器

T_max:该余弦函数的周期

eta_min:学习率的最小值

last_epoch:最后一个更新学习率的epoch,默认为-1,一直更新

pytorch linear层计算_pytorch_05

5、ReduceLROnPlateau自适应调整学习率

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

optimizer:优化器

mode:分两种模式:min和max

  • min:当网络的评价指标不再下降时更新学习率
  • max:当网络的评价指标不再上升时更新学习率

factor:学习率下降因子,new_lr = base_lr * factor

patience:多少个epoch网络没有提升就会更新学习率

verbose:是否向标准输出stdout输出更新消息,True为是,False反之

threshold:衡量新的最优位置的阈值,保证不会对小规模的变化起作用

threshold_mode:分为两种模式rel和abs:

  • rel-max:dynamic_threshold = best * ( 1 + threshold )
  • rel-min:=max:dynamic_threshold = best * ( 1 - threshold )
  • abs-max:dynamic_threshold = best + threshold
  • abs-min:dynamic_threshold = best - threshold

cooldown:减少学习率之后恢复正常操作之前需要等待的epoch数

min_lr:学习率更新的下限

eps:学习率下降的最小尺度

注意:使用时和其他的学习率调整器不同需要在step中传入val loss

6、CyclicLR循环学习率

torch.optim.lr_scheduler.CyclicLR(optimizer, base_lr, max_lr, step_size_up=2000, step_size_down=None, mode='triangular', gamma=1.0, scale_fn=None, scale_mode='cycle', cycle_momentum=True, base_momentum=0.8, max_momentum=0.9, last_epoch=-1)

optimizer:优化器

base_lr:基础学习率

max_lr:学习率的上限

step_size_up:学习率上升的步数

step_size_down:学习率下降的步数

mode:三种模式:triangular,triangular2和exp_range,和之前的几个参数交互所用,如果scale_fn不是None则忽略

gamma:exp_range中的常量gamma**(cycle iterations)

scale_fn:自定义的缩放策略保证所有x>=0的情况下scale_fn(x)的值域是[0,1]

scale_mode:两种模式cycle和iterations决定scale_fn函数以何种方式作用

cycle_momentum:如果为True,则动量与’base_momentum’和’max_momentum之间的学习率成反比

base_momentum:初始动量,即每个参数组的循环中的下边界。

max_momentum:每个参数组的循环中的上动量边界。 在功能上,它定义了循环幅度(max_momentum - base_momentum)。 任何周期的动量都是max_momentum和幅度的一些比例的差异; 因此,实际上可能无法达到base_momentum,具体取决于缩放功能。

last_epoch:最后一个更新学习率的epoch,默认为-1,一直更新

pytorch linear层计算_pytorch linear层计算_06

7、自定义学习率

def adjust_learning_rate(optimizer, epoch, lr):
    """Sets the learning rate to the initial LR decayed by 10 every 30 epochs"""
    lr = lr * (0.1 ** (epoch // 30))
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr

8、完整的测试程序

from tensorboardX import SummaryWriter
from torchvision import models
from torch.optim import SGD, lr_scheduler
import matplotlib.pyplot as plt
import numpy as np

#自定义学习率更新方式在调用step的地方调用
def adjust_learning_rate(optimizer, epoch, lr):
    """Sets the learning rate to the initial LR decayed by 10 every 30 epochs"""
    lr = lr * (0.1 ** (epoch // 30))
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr



def lambda_lr(optimizer, epochs, gamma):
    #lambda1 = lambda epoch:epochs // 100 #根据epoch计算出与lr相乘的乘数因子为epoch//10的值
    #当epoch=0时,lr = lr * (0.2**0)=0.05;当epoch=1时,lr = lr * (0.2**1)=0.01
    gamma = gamma * 100
    lambda2 = lambda epochs:np.sin(epochs//gamma) / (epochs//gamma)
    #这里的lr_lambda其实可以指定一个lambda表达式的list
    return lr_scheduler.LambdaLR(optimizer, lr_lambda=lambda2)


def step_lr(optimizer, epochs, gamma):
    step_size = epochs // 6
    return lr_scheduler.StepLR(optimizer,step_size=step_size,gamma = gamma)


def multi_step_lr(optimizer, epochs, gamma):
    milestones = [i//50 * 50 for i in range(0, epochs, 100)]
    return lr_scheduler.MultiStepLR(optimizer, milestones=milestones, gamma=gamma)


def exponential_lr(optimizer, epochs, gamma):
    return lr_scheduler.ExponentialLR(optimizer, gamma=gamma)


def cosine_lr(optimizer, epochs, gamma):
    T_max = epochs/4
    eta_min = gamma / 10e5
    return lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)


def reduce_lr(optimizer, epochs):
    '''根据损失下降
    '''
    return lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)


def cyclic_lr(optimizer, epochs, gamma):
    base_lr = 0.5
    max_lr = 1e-8
    return lr_scheduler.CyclicLR(optimizer, base_lr, max_lr, step_size_up=100, step_size_down=None, mode='triangular', gamma=gamma, scale_fn=None, scale_mode='cycle', cycle_momentum=True, base_momentum=0.8, max_momentum=0.9, last_epoch=-1)


def lr_test():
    plt.figure()
    lr_dict = {'lambda_lr':lambda_lr, 'step_lr':step_lr, 'multi_step_lr':multi_step_lr, 'exponential_lr':exponential_lr, 'cosine_lr':cosine_lr, 'cyclic_lr':cyclic_lr}#'reduce_lr':reduce_lr}
    for key in lr_dict.keys():
        desc = key
        epochs = 300
        model = models.alexnet()
        learning_rate = 0.1
        optimizer = SGD(model.parameters(), lr=learning_rate, momentum=0.9)
        #scheduler = lambda_lr(optimizer, epochs)
        #scheduler = step_lr(optimizer, epochs)
        #scheduler = multi_step_lr(optimizer, epochs)
        #scheduler = exponential_lr(optimizer, epochs)
        #cheduler = cosine_lr(optimizer, epochs)
        #scheduler = reduce_lr(optimizer, epochs)
        #scheduler = cyclic_lr(optimizer, epochs)
        for gamma in range(1, 11, 1):
            scheduler = lr_dict[key](optimizer, epochs, gamma/10)
            x = []
            y = []
            for epoch in range(epochs):
                print(epoch)
                scheduler.step()
                lr = scheduler.get_lr()[0]
                x.append(epoch)
                y.append(lr)

            plt.plot(x, y, label = 'gamma-' + str(gamma/10))
        
        plt.title(key)
        plt.legend()
        plt.savefig(desc + '.png')
        plt.show()

if __name__ == '__main__':
    lr_test()