从头预训练一个针对的那1个任务的3层BERT,
保持预训练和inference时的一致性,速度加速4倍,精度不变。