项目 12:架构的进化:MQA、GQA 与 MLA 深度解析

以精度换取吞吐:模型结构的极致压缩之路