GGUF与llamacpp

把模型跑到 CPU 上这件事,从来不只是降级方案,而是一整套围绕格式、内存和指令集设计出来的工程路径

模型量化INT8与INT4

量化不是简单地把数字变短,而是在误差、吞吐、显存和可用性之间做精细折中

推理为什么慢

大模型不是单纯算得不够快,而是在一次次受限于历史上下文、显存容量与调度方式

向量数据库选型与生产实践

真正困难的往往不是把向量搜出来,而是让这套能力长期、稳定、可控地服务业务

项目 21:文明的数字工业化:构建大规模预训练数据管线

垃圾进,垃圾出:在大模型时代重新定义‘高质量数据’