最后不要再只写“我学了 attention”,要交付一个能被复现的小系统

Capstone 的定义

路线图最后一个项目不是再学一个新名词,而是把整条链路接起来:

训练或微调一个小模型,量化它,部署它,给它加 RAG 或工具调用,评测它,红队它,最后写清楚它能做什么、不能做什么、为什么会失败。

这件事的价值不在模型多聪明,而在你是否真的走完了 LLM 系统的闭环。

十二周计划

第 1-2 周:表示与注意力

目标:把文本变成张量,并写出 attention。

任务:

  • 字符级 tokenizer。
  • BPE trainer。
  • tokenizer visualizer。
  • embedding table。
  • learned / sinusoidal / RoPE / ALiBi 位置方法。
  • 单头 attention。
  • multi-head attention。
  • causal mask 测试。

交付:

  • tokenizer 对比图。
  • attention heatmap。
  • 去掉位置编码和 mask 的破坏实验。

第 3-4 周:训练与目标函数

目标:训练一个 mini-former。

任务:

  • decoder block。
  • 多层 mini-former。
  • train/val split。
  • loss 曲线。
  • generation loop。
  • causal LM、masked LM、prefix LM 对比。
  • normalization / activation ablation。

交付:

  • 训练脚本。
  • 每隔固定 step 的生成样例。
  • train loss vs val loss 图。
  • 至少 3 个 ablation。

第 5-6 周:推理系统

目标:让模型生成得更快、更可控。

任务:

  • sampling dashboard。
  • KV cache。
  • speculative decoding。
  • MQA/GQA 对比。
  • INT8/INT4 量化。
  • 简单 serving benchmark。

交付:

  • tokens/sec 图。
  • cache memory 表。
  • 采样参数输出对比。
  • 量化损伤记录。

第 7-8 周:长上下文、MoE 与数据

目标:从单模型训练扩展到系统约束。

任务:

  • sliding-window attention。
  • attention sink 实验。
  • RoPE scaling 或 YaRN-style 实验。
  • two-expert MoE router。
  • expert utilization histogram。
  • 小型数据管线:去重、过滤、切分。
  • synthetic data 对比。

交付:

  • context length vs latency/memory 图。
  • expert collapse 破坏实验。
  • 数据卡片。
  • real vs synthetic 训练对比。

第 9-10 周:后训练与评测

目标:把 base model 调成一个可用助手,并建立评测。

任务:

  • SFT 数据整理。
  • LoRA/QLoRA adapter。
  • DPO 或 toy RLHF。
  • evaluation harness。
  • RAG 评测。
  • safety eval。

交付:

  • before/after 输出样例。
  • adapter 权重与训练配置。
  • eval report。
  • 失败样例库。

第 11-12 周:完整系统

目标:完成 capstone。

任务:

  • 选择一个小而明确的应用场景。
  • 训练或微调一个小模型。
  • 量化并部署。
  • 加 RAG 或工具调用。
  • 做可观测日志。
  • 跑 benchmark。
  • 做 prompt injection 和工具越权测试。
  • 写完整技术报告。

交付:

  • repo。
  • notebook。
  • plots。
  • failure gallery。
  • write-up。
  • demo 或本地服务启动说明。

Capstone 选题建议

选题不要大。越大越容易变成拼框架。

适合的题目:

  • 中文技术博客问答助手:基于自己的博客内容做 RAG。
  • 小型代码解释器:给定一个 Python 文件,解释函数、生成测试、指出风险。
  • 本地文档整理助手:读取 PDF/Markdown,生成摘要、标签、问答。
  • 个人知识库 Agent:能检索、引用、生成学习计划。
  • 小型中文故事模型:用固定风格数据训练一个 tiny generator。

不适合的题目:

  • “做一个 ChatGPT”。
  • “做一个全能 Agent”。
  • “训练一个通用中文大模型”。

Capstone 要小到能完成,大到能覆盖完整链路。

每个项目都要留下五类证据

第一,implementation。代码要能跑,有最小测试。

第二,notebook。至少一个可复现实验,最好能一键跑出关键图。

第三,plots。不要只写结论,要画 loss、latency、memory、attention、routing、eval score。

第四,failure gallery。收集失败样例:重复、幻觉、检索错、工具错、越权、长上下文丢失。

第五,short write-up。写下预期、实际、原因、下一步。

最终报告结构

1. 目标与边界
2. 数据来源与处理
3. tokenizer 与模型配置
4. 训练或微调方法
5. 推理与部署方式
6. RAG / 工具 / Agent 设计
7. 评测集与指标
8. 结果与图表
9. 失败样例
10. 安全边界
11. 成本与性能
12. 下一步

写完这份报告,比“看完十个教程”更能说明你真的理解了 LLM 工程。

和本站已有内容的连接

这个 capstone 可以直接复用本站已有模块:

  • mini-gpt:模型内部。
  • inference-opt:量化与推理优化。
  • vLLM:服务部署。
  • vector-db:检索存储。
  • llm-app:RAG、工具调用、应用工程。
  • ai-agent:Agent loop、工具、记忆、安全。
  • agent-eval:评测方法。

本篇要点

  • 十二周计划不是死期限,而是防止学习无限发散的约束。
  • 每一步都要交付可复现实验,而不是只读资料。
  • Capstone 要小而完整,覆盖数据、模型、推理、应用、评测、安全。
  • 真正的学习结果是一套能运行、能测量、能解释失败的系统。

延伸阅读

版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。

(采用 CC BY-NC-SA 4.0 许可协议进行授权)

本文标题:项目 34:十二周执行计划与 Capstone

本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/06-十二周执行计划与Capstone/

本文最后一次更新为 天前,文章中的某些内容可能已过时!