home
blog
AI
archives
tags
about
RSS
Blog
个人的一个技术博客站点
列表
画廊
推理服务工程化
模型能回答问题还远远不够,真正的生产系统必须回答另一组问题:能撑多久、能顶多大峰值、出错时能不能收得住
开源大模型上线
把模型文件下载下来只是一半工作,真正的上线要把制品来源、服务形态、接口兼容和性能边界一起收拢
推理引擎横评
推理引擎之间真正不同的,不只是启动命令,而是它们分别把显存、调度和编译优化放在了哪一层
知识蒸馏
蒸馏不是把模型简单缩小,而是把大模型的判断结构有选择地迁移进更便宜的学生网络
LoRA与QLoRA微调
真正让微调变得普及的,不是把训练变简单了,而是把显存门槛降到了更多团队够得着的范围
«
»
为了提升本站的使用体验和必要功能的正常使用,本站会使用本地 Cookie。详细请查看«
本站使用条款
»了解更多。
同意