sshipanoo

项目 05：从单头到多头注意力

并行的不是一种关系，而是多组关系

项目 06：构建完整的 Transformer Decoder Block

深度学习的乐高积木：每一个 Block 都是一个独立的特征加工厂

项目 07：Mini-former 训练实战：从随机扰动到文本预测

训练的本质：通过数亿次的微调，在参数的高维荒野中寻找最优解

项目 08：训练目标对比：Causal、Masked 与 Prefix LM

决定模型性格的基因：你如何定义损失，就如何定义模型

项目 09：概率的剪裁：解码策略与采样 Dashboard

在确定性与随机性之间寻找平衡：解码算法的数学直觉