1. Transformer架构

自注意力→多头注意力→位置编码→Feed-Forward层→LayerNorm。

2. 预训练→微调范式

预训练(大量无监督数据学习语言知识)→ SFT(有监督微调对齐指令)→ RLHF(人类反馈强化学习)→ Alignment(对齐人类偏好)。