0.简介

要读懂caffe,首先要熟悉Blob,Layer,Net,Solver这几个大类。这四个大类紧密相连,贯穿了整个caffe的结构,下面先分别简单地介绍一下这四个类的主要作用。

  • Blob:作为数据传输的媒介,无论是网络权重参数,还是输入数据,都是转化为Blob数据结构来存储
  • Layer:作为网络的基础单元,神经网络中层与层间的数据节点、前后传递都在该数据结构中被实现,层类种类丰富,比如常用的卷积层、全连接层、pooling层等等,大大地增加了网络的多样性
  • Net:作为网络的整体骨架,决定了网络中的层次数目以及各个层的类别等信息
  • Solver:作为网络的求解策略,涉及到求解优化问题的策略选择以及参数确定方面,修改这个模块的话一般都会是研究DL的优化求解的方向。

所以利用caffe作深度学习的过程总结起来一句话:定义好整个网络结构Net,该结构是由一块块Layer组合起来的。最后用Solver解决方案来训练这个网络结构。这些过程中数据的传输均利用Blob。

1.caffe中用到的结构化数据

虽然我们了解了caffe在深度学习过程中的整体流程,但若是想要看懂这些结构在caffe中是如何定义的。那么我们首先要知道什么是proto文件。因为caffe中利用caffe.proto这个文件对其内部用到的数据作了解释,所以想要看懂caffe究竟是什么,了解caffe.proto就是第一步。proto文件的底层为Protocol Buffers,这是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化(使得数据传输变得高效),好了真想大白了,这就是为什么caffe要用这种结构来定义数据了。

在Caffe中,首先编写一个 proto 文件,定义我们程序中需要处理的结构化数据,在 protobuf 的术语中,结构化数据被称为 Message。proto 文件非常类似 java 或者 C 语言的数据定义。

Package caffe;
Message BlobProto{...}

定义一个命名空间,在该命名空间下定义一个类BlobProto(每一个Message都会生成一个类)。下面对Message做一个简单的介绍:

Message中的field:
//而且这些field有三种形式:
//1. Required是必须有值的,
//2. optional是可选项,
//3. repeated表示后面单元为相同类型的一组向量。

Message的tag:
//每个message里面的每个field都对应一个tag,
//分别是1~15或者以上,比如required string number=1;
//这个数字就是用来在生成的二进制文件中搜索查询的标签(怪不得会快)。
//关于这个数字,1到15会花费1byte的编码空间,16到2047花费2byte。
//所以一般建议把那些频繁使用的名字的标签设为1到15之间的值~

Message的enum:
//enum枚举类型调用方法:caffe::BlobProto::枚举类型里面的变量。

然后通过编译这个.proto文件之后就会生成一个.pb.cc和一个.pb.h文件。编译完成后caffe就可以基于C++运行了。

protoc -I=$SRC_DIR --cpp_out=$DST_DIR $SRC_DIR/addressbook.proto
Message类别:
属于blob的:BlobProto, BlobProtoVector, Datum。

属于layer的:FillerParameter, LayerParameter,
ArgMaxParameter,TransformationParameter, LossParameter, AccuracyParameter,
ConcatParameter, ContrastiveLossParameter, ConvolutionParameter,
DataParameter, DropoutParameter, DummyDataParameter, EltwiseParameter,
ExpParameter, HDF5DataParameter, HDF5OutputParameter, HingeLossParameter,
ImageDataParameter, InfogainLossParameter, InnerProductParameter,
LRNParameter, MemoryDataParameter, MVNParameter, PoolingParameter,
PowerParameter, PythonParameter, ReLUParameter, SigmoidParameter,
SliceParameter, SoftmaxParameter, TanHParameter, ThresholdParameter等。

属于net的:NetParameter, SolverParameter, SolverState, NetState, NetStateRule,
ParamSpec。

NetParameter弄清楚NetParameter类的组成,也就明白了.Caffemodel的具体数据构成;
SolverState类记录的是当前迭代状态和参数设置,与.solverstate文件有关系;

caffe中的一些主要的数据类型如下(主要就是我们最开始提到的Net网络,Layer模块,Solver模块,Blob模块):

message BlobProto {//blob的属性以及blob中的数据(data\diff)
  optional int32 num = 1 [default = 0];
  optional int32 channels = 2 [default = 0];
  optional int32 height = 3 [default = 0];
  optional int32 width = 4 [default = 0];
  repeated float data = 5 [packed = true];
  repeated float diff = 6 [packed = true];
}
message LayerParameter {
  repeated string bottom = 2; //输入的blob的名字(string)
  repeated string top = 3; //输出的blob的名字(string)
  optional string name = 4; //层的名字
  enum LayerType { //层的枚举(enum,和c++中的enum一样)
    NONE = 0;
    ACCURACY = 1;
    BNLL = 2;
    CONCAT = 3;
    CONVOLUTION = 4;
    DATA = 5;
    DROPOUT = 6;
    EUCLIDEAN_LOSS = 7;
    ELTWISE_PRODUCT = 25;
    FLATTEN = 8;
    HDF5_DATA = 9;
    HDF5_OUTPUT = 10;
    HINGE_LOSS = 28;
    IM2COL = 11;
    IMAGE_DATA = 12;
    INFOGAIN_LOSS = 13;
    INNER_PRODUCT = 14;
    LRN = 15;
    MEMORY_DATA = 29;
    MULTINOMIAL_LOGISTIC_LOSS = 16;
    POOLING = 17;
    POWER = 26;
    RELU = 18;
    SIGMOID = 19;
    SIGMOID_CROSS_ENTROPY_LOSS = 27;
    SOFTMAX = 20;
    SOFTMAX_LOSS = 21;
    SPLIT = 22;
    TANH = 23;
    WINDOW_DATA = 24;
  }
  optional LayerType type = 5; // 层的类型
  repeated BlobProto blobs = 6; //blobs的数值参数
  repeated float blobs_lr = 7; //学习速率
  repeated float weight_decay = 8; //权值衰减(repeated)

  // 相对于某一特定层的参数(optional)
  optional ConcatParameter concat_param = 9;
  optional ConvolutionParameter convolution_param = 10;
  optional DataParameter data_param = 11;
  optional DropoutParameter dropout_param = 12;
  optional HDF5DataParameter hdf5_data_param = 13;
  optional HDF5OutputParameter hdf5_output_param = 14;
  optional ImageDataParameter image_data_param = 15;
  optional InfogainLossParameter infogain_loss_param = 16;
  optional InnerProductParameter inner_product_param = 17;
  optional LRNParameter lrn_param = 18;
  optional MemoryDataParameter memory_data_param = 22;
  optional PoolingParameter pooling_param = 19;
  optional PowerParameter power_param = 21;
  optional WindowDataParameter window_data_param = 20;
  optional V0LayerParameter layer = 1;
}
message NetParameter {
  optional string name = 1;//网络的名字
  repeated LayerParameter layers = 2; //基础单位layer
  repeated string input = 3;//输入层blob的名字
  repeated int32 input_dim = 4;//输入层blob的维度,应该等于(4*input)
  optional bool force_backward = 5 [default = false];//网络是否进行反向传播。
//如果设置为否,则由网络的结构和学习速率来决定是否进行反向传播。
}
message SolverParameter {
  optional string train_net = 1; // 训练网络的proto file
  optional string test_net = 2; // 测试网络的proto file
  optional int32 test_iter = 3 [default = 0]; // 每次测试时的迭代次数
  optional int32 test_interval = 4 [default = 0]; // 两次测试的间隔迭代次数
  optional bool test_compute_loss = 19 [default = false];
  optional float base_lr = 5; // 基本学习率
  optional int32 display = 6; // 两次显示的间隔迭代次数
  optional int32 max_iter = 7; // 最大迭代次数
  optional string lr_policy = 8; // 学习速率衰减方式
  optional float gamma = 9; // 关于梯度下降的一个参数
  optional float power = 10; // 计算学习率的一个参数
  optional float momentum = 11; // 动量
  optional float weight_decay = 12; // 权值衰减
  optional int32 stepsize = 13; // 学习速率的衰减步长
  optional int32 snapshot = 14 [default = 0]; // snapshot的间隔
  optional string snapshot_prefix = 15; // snapshot的前缀
  optional bool snapshot_diff = 16 [default = false]; 
// 是否对于 diff 进行 snapshot
  enum SolverMode {
    CPU = 0;
    GPU = 1;
  }
  optional SolverMode solver_mode = 17 [default = GPU]; // solver的模式,默认为GPU
  optional int32 device_id = 18 [default = 0]; // GPU的ID
  optional int64 random_seed = 20 [default = -1]; // 随机数种子
}

2.Bolb简介

Blob:是基础的数据结构,是用来保存学习到的参数以及网络传输过程中产生数据的类。是Caffe作为数据传输的媒介,无论是网络权重参数,还是输入数据,都是转化为Blob数据结构来存储,网络,求解器等都是直接与此结构打交道的。其直观的可以把它看成一个有4维度的结构体(包含数据和梯度),而实际上,它们只是一维的指针而已,其4维结构通过shape属性得以计算出来(根据C语言的数据顺序),因为Blob是row-major(行优先)保存的,比如对于输入(n, c, h, w)位置的数据位置为((n * channels_+c) * height_+h) * width_+w。
Blob是用以存储数据的四维数组,分别由下面组成:

  • 对于数据:num(输入数据量,比如sgd时,mini-batch的大小),channels(通道数量),height(图片的高度),width(图片的宽度)。
  • 对于卷积权重:outputinputheight*width
  • 对于卷积偏置:output11*1
  • 对于卷积层输出:输入图片数量对应feature maps数量输出图片的高度*输出图片的宽度;

对于BlobProto,可以看到定义了四个optional的int32类型的名字(name)num、channels、height和width,optional意味着Blob可以有一个或者没有这个参数,而后面的repeated意味着float类型的data和diff可以重复任意次,而加上[packed = true]是为了更高效的编码。

message BlobProto {
   optional int32 num = 1 [default = 0];
   optional int32 channels = 2 [default = 0];
   optional int32 height = 3 [default = 0];
   optional int32 width = 4 [default = 0];
   repeated float data = 5 [packed = true];
   repeated float diff = 6 [packed = true];
}

所以总结来说Blob中,主要数据有两个data和diff(data表示流动数据(输出数据),而diff则存储BP的梯度)。用num、channels、height和width这四个维度来确定数据的具体位置,做一些数据查询和Blobreshape的操作。

3.Net简介

Net:是网络的搭建,将Layer所派生出层类组合成网络。Net用容器的形式将多个Layer有序地放在一起,其自身实现的功能主要是对逐层Layer进行初始化,以及提供Update( )的接口(更新网络参数),本身不能对参数进行有效地学习过程。Net也有它自己的Forward()和Backward(),他们是对整个网络的前向和反向传导,各调用一次就可以计算出网络的loss了,下面就是Net一些参数。

message NetParameter {
  optional string name = 1;//网络的名字
  repeated LayerParameter layers = 2; //基础单位layer
  repeated string input = 3;//输入层blob的名字
  repeated int32 input_dim = 4;//输入层blob的维度,应该等于(4*input)
  optional bool force_backward = 5 [default = false];//网络是否进行反向传播。
//如果设置为否,则由网络的结构和学习速率来决定是否进行反向传播。
}

4.Layer简介

Layer:是网络的基本单元,由此派生出了各种层类。这才是本文重点想要讲述的。Layer类派生出来的层类通过这实现这两个虚函数Forward()和Backward(),产生了各式各样功能的层类。Forward是从根据bottom计算top的过程,Backward则相反(根据top计算bottom)。Layer中可写的东西太多了,之后再单独写一篇~。