以下是LlamaFactory 模型微调关键参数的详细解析表涵盖参数含义、使用场景、解决的问题及建议取值结合技术实践与搜索结果综合整理LlamaFactory 微调关键参数解析表参数类别参数名称含义使用场景解决的问题建议设置值基础配置finetuning_type微调方法选择- 资源有限选lora/qlora- 显存充足选full- 快速迭代选freeze平衡效果与资源消耗lora默认或qlora显存不足时model_name_or_path预训练模型路径或 Hugging Face ID指定基础模型如 LLaMA-3、Qwen模型加载失败、路径错误本地绝对路径或标准 HF 标识符如meta-llama/Llama-3-8Bcutoff_len输入序列最大 Token 长度- 短文本任务分类128-512- 长文本任务生成1024-8192长文本信息丢失、显存溢出匹配模型上下文长度如 LLaMA-3 设为8192训练效率learning_rate参数更新步长控制- 全参数微调小学习率- LoRA 微调较大学习率训练震荡过大或收敛慢过小1e-5全参数或1e-4LoRAper_device_train_batch_size单 GPU 批大小根据 GPU 显存调整显存不足Batch 过大或训练慢Batch 过小2-824GB 显存配合梯度累积使用gradient_accumulation_steps梯度累积步数模拟大批量训练显存不足时小 Batch 导致训练不稳定8Batch2 时等效 Batch16num_train_epochs训练轮次- SFT 任务多轮次- DPO/PPO 任务少轮次过拟合轮次过多或欠拟合轮次过少3-10SFT或1-3DPO/PPOLoRA 优化lora_rank低秩矩阵的秩参数量控制适配器复杂度参数量过大显存不足或表达能力不足秩过小8-64简单任务取小值复杂任务取大值lora_alpha适配器权重缩放系数调节 LoRA 权重影响力微调效果弱Alpha 过小或过拟合Alpha 过大2 * lora_rank如 Rank8 → Alpha16lora_dropout适配器 Dropout 率防止过拟合训练集过拟合、泛化能力差0.05-0.1数据量少时启用quantization_bit量化为 4/8 位精度显存极度紧张场景如单卡 4090 训练 7B 模型显存不足导致 OOM4QLoRA或8平衡精度与显存结构控制lora_targetLoRA 作用的目标层聚焦关键层如注意力模块无效参数更新层选择错误q_proj,v_proj注意力层或all全层flash_attn启用 FlashAttention-2 加速长序列或大模型训练注意力计算慢、显存占用高auto自动检测硬件支持rope_scaling扩展上下文长度的位置编码策略处理超长文本8K Token长文本位置编码溢出dynamic动态 NTK或yarn验证与监控val_size验证集比例监控过拟合过拟合未被及时发现0.1数据量少或0.05数据量大plot_loss绘制训练损失曲线实时观察收敛情况难以诊断训练异常如 Loss 震荡True必开启关键参数组合建议根据不同场景推荐配置模板显存有限场景单卡 24GB 以下finetuning_type:qloraquantization_bit:4lora_rank:8lora_alpha:16gradient_accumulation_steps:8flash_attn:auto长文本任务如文档生成cutoff_len:8192rope_scaling:dynamicflash_attn:on多 GPU 分布式训练device_count:4deepspeed_stage:2# ZeRO-2 优化器分片注意事项参数优先级显存优化 精度调整 结构扩展即优先通过量化和 LoRA 解决资源问题再调整学习率等超参数。动态调整若训练损失震荡降低学习率×0.8或增大梯度裁剪阈值max_grad_norm若收敛慢增加 Batch Size 或学习率×1.2。模板兼容性template参数如llama3必须与基础模型预训练格式一致否则会导致输出乱码。更多实践案例可参考 https://llamafactory.readthedocs.io/ 或社区教程。