sshipanoo

2026-05-27 项目 24：灵魂的对齐：SFT、指令微调与偏好优化（DPO）
2026-05-27 项目 25：理性的驯化：从 RLHF、PPO 到 GRPO 的进化史
2026-05-25 从迷你 GPT 到 ChatGPT：预训练之后还经历了什么