-
2026-05-27 项目 24:灵魂的对齐:SFT、指令微调与偏好优化(DPO)
-
2026-05-27 项目 25:理性的驯化:从 RLHF、PPO 到 GRPO 的进化史
-
2026-05-25 从迷你 GPT 到 ChatGPT:预训练之后还经历了什么
2026-05-27 项目 24:灵魂的对齐:SFT、指令微调与偏好优化(DPO)
2026-05-27 项目 25:理性的驯化:从 RLHF、PPO 到 GRPO 的进化史
2026-05-25 从迷你 GPT 到 ChatGPT:预训练之后还经历了什么