🧪 模型微调与对齐技术

1. 全量微调 (Full Fine-tuning)

更新模型所有参数，效果最好但成本最高。适用于基座模型到领域模型的深度适配。7B模型全量微调约需8×A100 80GB，成本数万元。

全量微调高成本

LoRA（Low-Rank Adaptation）：添加低秩矩阵旁路，只训练新增的少量参数。7B模型仅需1张A100即可微调，权重文件仅几MB。

QLoRA：量化+LoRA，4-bit量化基座模型后再应用LoRA，进一步降低显存需求（7B模型仅需~10GB显存）。

DoRA：权重分解LoRA，2024年提出，将预训练权重分解为幅度和方向，学习表现优于LoRA。

AdaLoRA：自适应分配秩，对重要层分配更多参数。

QLoRA + Llama 3.1 8B 已成为社区微调标配。

LoRA QLoRA DoRA

SFT（监督微调）：用高质量指令-回复对训练模型遵循指令。

RLHF（人类反馈强化学习）：先训练奖励模型，再用PPO优化策略。OpenAI ChatGPT早期核心对齐方法。

DPO（直接偏好优化）：2023年斯坦福提出，无需奖励模型，直接从偏好数据中优化。更稳定、更高效，已成为2024-2026年主流选择。

KTO / IPO / SimPO：DPO的变体，分别针对不需要成对偏好数据、过拟合控制和长度偏差问题优化。

SFT RLHF DPO

入门级 → Unsloth（2x加速、70%显存节省，Colab免费可用）

生产级 → LLaMA-Factory（支持100+模型、可视化WebUI、多种微调方法）

专业级 → Axolotl（YAML配置驱动、社区活跃、HuggingFace生态集成）

企业级 → TorchTune（Meta出品、PyTorch原生、性能极致）

Unsloth LLaMA-Factory Axolotl

📖 模型微调与对齐技术 · 第4页