sshipanoo

推理服务工程化

模型能回答问题还远远不够，真正的生产系统必须回答另一组问题：能撑多久、能顶多大峰值、出错时能不能收得住

开源大模型上线

把模型文件下载下来只是一半工作，真正的上线要把制品来源、服务形态、接口兼容和性能边界一起收拢

推理引擎横评

推理引擎之间真正不同的，不只是启动命令，而是它们分别把显存、调度和编译优化放在了哪一层

知识蒸馏

蒸馏不是把模型简单缩小，而是把大模型的判断结构有选择地迁移进更便宜的学生网络

LoRA与QLoRA微调

真正让微调变得普及的，不是把训练变简单了，而是把显存门槛降到了更多团队够得着的范围