home
blog
AI
archives
tags
about
RSS
Blog
个人的一个技术博客站点
列表
画廊
GGUF与llamacpp
把模型跑到 CPU 上这件事,从来不只是降级方案,而是一整套围绕格式、内存和指令集设计出来的工程路径
模型量化INT8与INT4
量化不是简单地把数字变短,而是在误差、吞吐、显存和可用性之间做精细折中
推理为什么慢
大模型不是单纯算得不够快,而是在一次次受限于历史上下文、显存容量与调度方式
向量数据库选型与生产实践
真正困难的往往不是把向量搜出来,而是让这套能力长期、稳定、可控地服务业务
项目 21:文明的数字工业化:构建大规模预训练数据管线
垃圾进,垃圾出:在大模型时代重新定义‘高质量数据’
«
»
为了提升本站的使用体验和必要功能的正常使用,本站会使用本地 Cookie。详细请查看«
本站使用条款
»了解更多。
同意