使用的数据集CoT_chinese_data, alpaca_gpt4_data_zh, gaokao三个数据集合计是74771条数据,A100 * 2 80G 训练了一天。
训练命令:
llamafactory-cli train \
--stage sft \
--do_train True \
--model_name_or_path /data/llmservice/modes/Qwen2-7B/qwen/Qwen2-7B \
--preprocessing_num_workers 16 \
--finetuning_type lora \
--template default \
--flash_attn auto \
--dataset_dir data \
--dataset CoT_Chinese_data,alpaca_gpt4_data_zh,gaokao \
--cutoff_len 8192 \
--learning_rate 5e-05 \
--num_train_epochs 3.0 \
--max_samples 100000 \
--per_device_train_batch_size 3 \
--gradient_accumulation_steps 8 \
--lr_scheduler_type cosine \
--max_grad_norm 1.0 \
--logging_steps 5 \
--save_steps 100 \
--warmup_steps 0 \
--optim adamw_torch \
--packing False \
--report_to none \
--output_dir saves/Qwen2-7B/lora/train_2024-08-04-08-50-31 \
--fp16 True \
--plot_loss True \
--ddp_timeout 180000000 \
--include_num_input_tokens_seen True \
--lora_rank 8 \
--lora_alpha 16 \
--lora_dropout 0 \
--use_rslora True \
--use_dora True \
--lora_target all \
--deepspeed cache/ds_z3_config.json
训练曲线: