项目 34：十二周执行计划与 Capstone

Capstone 的定义

路线图最后一个项目不是再学一个新名词，而是把整条链路接起来：

训练或微调一个小模型，量化它，部署它，给它加 RAG 或工具调用，评测它，红队它，最后写清楚它能做什么、不能做什么、为什么会失败。

这件事的价值不在模型多聪明，而在你是否真的走完了 LLM 系统的闭环。

十二周计划

第 1-2 周：表示与注意力

目标：把文本变成张量，并写出 attention。

任务：

字符级 tokenizer。
BPE trainer。
tokenizer visualizer。
embedding table。
learned / sinusoidal / RoPE / ALiBi 位置方法。
单头 attention。
multi-head attention。
causal mask 测试。

交付：

tokenizer 对比图。
attention heatmap。
去掉位置编码和 mask 的破坏实验。

第 3-4 周：训练与目标函数

目标：训练一个 mini-former。

任务：

decoder block。
多层 mini-former。
train/val split。
loss 曲线。
generation loop。
causal LM、masked LM、prefix LM 对比。
normalization / activation ablation。

交付：

训练脚本。
每隔固定 step 的生成样例。
train loss vs val loss 图。
至少 3 个 ablation。

第 5-6 周：推理系统

目标：让模型生成得更快、更可控。

任务：

sampling dashboard。
KV cache。
speculative decoding。
MQA/GQA 对比。
INT8/INT4 量化。
简单 serving benchmark。

交付：

tokens/sec 图。
cache memory 表。
采样参数输出对比。
量化损伤记录。

第 7-8 周：长上下文、MoE 与数据

目标：从单模型训练扩展到系统约束。

任务：

sliding-window attention。
attention sink 实验。
RoPE scaling 或 YaRN-style 实验。
two-expert MoE router。
expert utilization histogram。
小型数据管线：去重、过滤、切分。
synthetic data 对比。

交付：

context length vs latency/memory 图。
expert collapse 破坏实验。
数据卡片。
real vs synthetic 训练对比。

第 9-10 周：后训练与评测

目标：把 base model 调成一个可用助手，并建立评测。

任务：

SFT 数据整理。
LoRA/QLoRA adapter。
DPO 或 toy RLHF。
evaluation harness。
RAG 评测。
safety eval。

交付：

before/after 输出样例。
adapter 权重与训练配置。
eval report。
失败样例库。

第 11-12 周：完整系统

目标：完成 capstone。

任务：

选择一个小而明确的应用场景。
训练或微调一个小模型。
量化并部署。
加 RAG 或工具调用。
做可观测日志。
跑 benchmark。
做 prompt injection 和工具越权测试。
写完整技术报告。

交付：

repo。
notebook。
plots。
failure gallery。
write-up。
demo 或本地服务启动说明。

Capstone 选题建议

选题不要大。越大越容易变成拼框架。

适合的题目：

中文技术博客问答助手：基于自己的博客内容做 RAG。
小型代码解释器：给定一个 Python 文件，解释函数、生成测试、指出风险。
本地文档整理助手：读取 PDF/Markdown，生成摘要、标签、问答。
个人知识库 Agent：能检索、引用、生成学习计划。
小型中文故事模型：用固定风格数据训练一个 tiny generator。

不适合的题目：

“做一个 ChatGPT”。
“做一个全能 Agent”。
“训练一个通用中文大模型”。

Capstone 要小到能完成，大到能覆盖完整链路。

每个项目都要留下五类证据

第一，implementation。代码要能跑，有最小测试。

第二，notebook。至少一个可复现实验，最好能一键跑出关键图。

第三，plots。不要只写结论，要画 loss、latency、memory、attention、routing、eval score。

第四，failure gallery。收集失败样例：重复、幻觉、检索错、工具错、越权、长上下文丢失。

第五，short write-up。写下预期、实际、原因、下一步。

最终报告结构

1. 目标与边界
2. 数据来源与处理
3. tokenizer 与模型配置
4. 训练或微调方法
5. 推理与部署方式
6. RAG / 工具 / Agent 设计
7. 评测集与指标
8. 结果与图表
9. 失败样例
10. 安全边界
11. 成本与性能
12. 下一步

写完这份报告，比“看完十个教程”更能说明你真的理解了 LLM 工程。

和本站已有内容的连接

这个 capstone 可以直接复用本站已有模块：

mini-gpt：模型内部。
inference-opt：量化与推理优化。
vLLM：服务部署。
vector-db：检索存储。
llm-app：RAG、工具调用、应用工程。
ai-agent：Agent loop、工具、记忆、安全。
agent-eval：评测方法。

本篇要点

十二周计划不是死期限，而是防止学习无限发散的约束。
每一步都要交付可复现实验，而不是只读资料。
Capstone 要小而完整，覆盖数据、模型、推理、应用、评测、安全。
真正的学习结果是一套能运行、能测量、能解释失败的系统。

延伸阅读

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:项目 34：十二周执行计划与 Capstone

本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/06-十二周执行计划与Capstone/

本文最后一次更新为天前，文章中的某些内容可能已过时！