推理服务工程化

模型能回答问题还远远不够,真正的生产系统必须回答另一组问题:能撑多久、能顶多大峰值、出错时能不能收得住

开源大模型上线

把模型文件下载下来只是一半工作,真正的上线要把制品来源、服务形态、接口兼容和性能边界一起收拢

推理引擎横评

推理引擎之间真正不同的,不只是启动命令,而是它们分别把显存、调度和编译优化放在了哪一层

LoRA与QLoRA微调

真正让微调变得普及的,不是把训练变简单了,而是把显存门槛降到了更多团队够得着的范围