最后不要再只写“我学了 attention”,要交付一个能被复现的小系统
Capstone 的定义
路线图最后一个项目不是再学一个新名词,而是把整条链路接起来:
训练或微调一个小模型,量化它,部署它,给它加 RAG 或工具调用,评测它,红队它,最后写清楚它能做什么、不能做什么、为什么会失败。
这件事的价值不在模型多聪明,而在你是否真的走完了 LLM 系统的闭环。
十二周计划
第 1-2 周:表示与注意力
目标:把文本变成张量,并写出 attention。
任务:
- 字符级 tokenizer。
- BPE trainer。
- tokenizer visualizer。
- embedding table。
- learned / sinusoidal / RoPE / ALiBi 位置方法。
- 单头 attention。
- multi-head attention。
- causal mask 测试。
交付:
- tokenizer 对比图。
- attention heatmap。
- 去掉位置编码和 mask 的破坏实验。
第 3-4 周:训练与目标函数
目标:训练一个 mini-former。
任务:
- decoder block。
- 多层 mini-former。
- train/val split。
- loss 曲线。
- generation loop。
- causal LM、masked LM、prefix LM 对比。
- normalization / activation ablation。
交付:
- 训练脚本。
- 每隔固定 step 的生成样例。
- train loss vs val loss 图。
- 至少 3 个 ablation。
第 5-6 周:推理系统
目标:让模型生成得更快、更可控。
任务:
- sampling dashboard。
- KV cache。
- speculative decoding。
- MQA/GQA 对比。
- INT8/INT4 量化。
- 简单 serving benchmark。
交付:
- tokens/sec 图。
- cache memory 表。
- 采样参数输出对比。
- 量化损伤记录。
第 7-8 周:长上下文、MoE 与数据
目标:从单模型训练扩展到系统约束。
任务:
- sliding-window attention。
- attention sink 实验。
- RoPE scaling 或 YaRN-style 实验。
- two-expert MoE router。
- expert utilization histogram。
- 小型数据管线:去重、过滤、切分。
- synthetic data 对比。
交付:
- context length vs latency/memory 图。
- expert collapse 破坏实验。
- 数据卡片。
- real vs synthetic 训练对比。
第 9-10 周:后训练与评测
目标:把 base model 调成一个可用助手,并建立评测。
任务:
- SFT 数据整理。
- LoRA/QLoRA adapter。
- DPO 或 toy RLHF。
- evaluation harness。
- RAG 评测。
- safety eval。
交付:
- before/after 输出样例。
- adapter 权重与训练配置。
- eval report。
- 失败样例库。
第 11-12 周:完整系统
目标:完成 capstone。
任务:
- 选择一个小而明确的应用场景。
- 训练或微调一个小模型。
- 量化并部署。
- 加 RAG 或工具调用。
- 做可观测日志。
- 跑 benchmark。
- 做 prompt injection 和工具越权测试。
- 写完整技术报告。
交付:
- repo。
- notebook。
- plots。
- failure gallery。
- write-up。
- demo 或本地服务启动说明。
Capstone 选题建议
选题不要大。越大越容易变成拼框架。
适合的题目:
- 中文技术博客问答助手:基于自己的博客内容做 RAG。
- 小型代码解释器:给定一个 Python 文件,解释函数、生成测试、指出风险。
- 本地文档整理助手:读取 PDF/Markdown,生成摘要、标签、问答。
- 个人知识库 Agent:能检索、引用、生成学习计划。
- 小型中文故事模型:用固定风格数据训练一个 tiny generator。
不适合的题目:
- “做一个 ChatGPT”。
- “做一个全能 Agent”。
- “训练一个通用中文大模型”。
Capstone 要小到能完成,大到能覆盖完整链路。
每个项目都要留下五类证据
第一,implementation。代码要能跑,有最小测试。
第二,notebook。至少一个可复现实验,最好能一键跑出关键图。
第三,plots。不要只写结论,要画 loss、latency、memory、attention、routing、eval score。
第四,failure gallery。收集失败样例:重复、幻觉、检索错、工具错、越权、长上下文丢失。
第五,short write-up。写下预期、实际、原因、下一步。
最终报告结构
1. 目标与边界
2. 数据来源与处理
3. tokenizer 与模型配置
4. 训练或微调方法
5. 推理与部署方式
6. RAG / 工具 / Agent 设计
7. 评测集与指标
8. 结果与图表
9. 失败样例
10. 安全边界
11. 成本与性能
12. 下一步
写完这份报告,比“看完十个教程”更能说明你真的理解了 LLM 工程。
和本站已有内容的连接
这个 capstone 可以直接复用本站已有模块:
mini-gpt:模型内部。inference-opt:量化与推理优化。vLLM:服务部署。vector-db:检索存储。llm-app:RAG、工具调用、应用工程。ai-agent:Agent loop、工具、记忆、安全。agent-eval:评测方法。
本篇要点
- 十二周计划不是死期限,而是防止学习无限发散的约束。
- 每一步都要交付可复现实验,而不是只读资料。
- Capstone 要小而完整,覆盖数据、模型、推理、应用、评测、安全。
- 真正的学习结果是一套能运行、能测量、能解释失败的系统。
延伸阅读
- Karpathy: Neural Networks Zero to Hero
- Hugging Face Accelerate
- EleutherAI LM Evaluation Harness
- vLLM
版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。
(采用 CC BY-NC-SA 4.0 许可协议进行授权)
本文标题:项目 34:十二周执行计划与 Capstone
本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/06-十二周执行计划与Capstone/
本文最后一次更新为 天前,文章中的某些内容可能已过时!