项目 24:灵魂的对齐:SFT、指令微调与偏好优化(DPO)

赋予模型性格:从统计概率到人类偏好的跨越

项目 25:理性的驯化:从 RLHF、PPO 到 GRPO 的进化史

让模型学会思考:强化学习在决策与对齐中的终极博弈

项目 26:数字的炼金术:模型量化(Quantization)深度解密

精度与空间的博弈:如何无损地压缩智能