sshipanoo

GGUF与llamacpp

把模型跑到 CPU 上这件事，从来不只是降级方案，而是一整套围绕格式、内存和指令集设计出来的工程路径

模型量化INT8与INT4

量化不是简单地把数字变短，而是在误差、吞吐、显存和可用性之间做精细折中

推理为什么慢

大模型不是单纯算得不够快，而是在一次次受限于历史上下文、显存容量与调度方式

向量数据库选型与生产实践

真正困难的往往不是把向量搜出来，而是让这套能力长期、稳定、可控地服务业务

项目 21：文明的数字工业化：构建大规模预训练数据管线

垃圾进，垃圾出：在大模型时代重新定义‘高质量数据’