往哪儿走都很精彩
恭喜你到达这里
走完前 9 篇,你已经具备:
- 理解 LLM 的本质和能力边界
- 调用各家 API、处理流式输出
- 会写 Prompt、让输出结构化
- 理解 Embedding + 向量检索
- 搭起 RAG 系统
- 用 Function Calling 让 AI 调 API
- 懂 Agent 循环、MCP 协议
- 做过完整的 AI 聊天产品
这份技能组合已经能覆盖 80% 的 AI 应用开发场景。最后这一篇我们聊聊剩下的 20%——你接下来可以深入的方向。
方向一:多模态
LLM 已经不只是"文本"模型了。
图像输入(Vision)
让 AI 看图片,几乎所有主流模型都支持:
await client.chat.completions.create({
model: 'gpt-4o',
messages: [
{
role: 'user',
content: [
{ type: 'text', text: '这张设计稿有什么可以改进的?' },
{ type: 'image_url', image_url: { url: 'https://.../design.png' } },
],
},
],
})
典型应用: -设计稿转代码(v0.dev、Anima) -UI 审查/无障碍检查 -OCR + 结构化提取(发票、表单) -截图理解(描述 bug、错误定位)
图像生成
-DALL·E 3(OpenAI):API 简单 -Stable Diffusion 3:开源、可本地 -Flux:2024 年最火的开源模型 -Google Imagen 3/Ideogram:文字渲染强 -Midjourney:质量最高但无官方 API
前端经常用:Replicate / fal.ai 托管 API + 流式预览 UI。
音频
-语音识别 (ASR):OpenAI Whisper(开源,可本地跑)、Deepgram -语音合成 (TTS):OpenAI TTS、ElevenLabs(克隆声音)、Microsoft Edge TTS(免费) -实时语音对话:OpenAI Realtime API、livekit Agents
做法示例:ChatGPT 语音模式(基于 WebRTC)。
视频
2024-2025 的爆点: -Sora、可灵、Runway Gen-3— 文生视频 -Google Veo、字节 PixelDance— 真·好莱坞级别
当前阶段成本和时间还比较高,但前端可以提前准备:生成任务队列、进度展示、视频处理 UI。
方向二:本地部署
为什么要本地:隐私、离线、无限量、零成本(除了硬件和电)。
推理引擎
| 工具 | 定位 |
|---|---|
| Ollama | 最易用,一键跑 |
| llama.cpp | 最底层,全平台 |
| LM Studio | 桌面 GUI |
| vLLM | 生产级高吞吐服务 |
| MLX(Apple Silicon) | Mac 上最快 |
| ONNX Runtime Web | 浏览器里跑小模型 |
上手推荐:
# Mac/Linux 装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 下模型
ollama pull llama3.2
ollama pull qwen2.5
# 它默认在 http://localhost:11434 暴露 OpenAI 兼容 API
然后你前 9 篇所有代码把 baseURL 改成 Ollama,一行都不用动。
值得一跑的本地模型(2026)
-Llama 3.3 70B/Llama 4(Meta) -Qwen 2.5 / 3系列(阿里,中文极好) -DeepSeek-V3(全能,参数 600B+) -Mistral Small/Large -Phi-4(微软小模型) -Gemma 3(Google)
30B 以下基本 Mac M2 Pro(32G)就能跑。70B 需要 M3 Max / M4 Max。
浏览器里的本地 AI
浏览器厂商都在内置:
-Chrome Built-in AI(Gemini Nano):Chrome 127+ 支持 window.ai
-Web LLM:用 WebGPU 在浏览器加载 Llama、Phi(mlc.ai/web-llm)
-Transformers.js:Hugging Face 官方出品,浏览器跑小模型
前端独有的优势:边缘 AI,用户数据永不出浏览器。
方向三:成本优化
当你的 AI 应用开始有真实用户,账单会让你清醒。
1. 选对模型
按任务复杂度分级:
function pickModel(task) {
if (task.type === 'classify') return 'gpt-4o-mini' // $0.15/M
if (task.type === 'summarize') return 'gpt-4o-mini'
if (task.type === 'reasoning') return 'gpt-4.1' // $2/M
if (task.type === 'code') return 'claude-sonnet-4'
}
-mini / -haiku / Flash 类的小模型便宜 10 倍以上,够用就别用旗舰。
2. Prompt Caching
OpenAI、Anthropic、DeepSeek 都支持 Prompt 缓存。长 System Prompt、RAG 资料、少样本示例放在开头,缓存命中后这部分只收 10% 的费用。
// Anthropic
{
role: 'system',
content: [
{ type: 'text', text: '很长的指令...', cache_control: { type: 'ephemeral' } },
],
}3. Batch API
非实时任务(离线生成、批量标注)走 Batch 接口,5 折。
4. 输出截断
{
max_tokens: 500, // 别让它啰嗦
stop: ['\n\n'],
}5. 模型蒸馏 / 自部署小模型
高频简单任务(分类、关键词提取):
- 用 GPT-4o 产出几千条高质量数据
- 微调一个 Qwen 0.5B 或 Phi-3
- 自己跑,成本降到 1%
6. 监控 + 预算墙
方向四:AI + 前端专属机会
前端开发者在 AI 浪潮里有独特优势:
1. AI 产品的 UI/UX 模型再强,用户看到的还是界面。聊天流式渲染、工具调用可视化、思考过程动画、多模态结果展示……这些都是前端的主场。参考 v0.dev、Perplexity、Claude Artifacts。
2. 浏览器/设备侧 AI 前端天然靠近用户,是边缘 AI 的最佳舞台。WebGPU、WASM、Worker、IndexedDB 的组合拳。
3. 开发者工具 Cursor / Windsurf / Copilot / v0 都是"前端型"产品——本质是前端 + Agent。你熟悉的 Monaco Editor、Tree-sitter、CodeMirror 都是必备武器。
4. AI 原生组件库 React Flow、shadcn/ui、Assistant UI……专为 AI 应用设计的组件生态正在爆发。
5. 低代码 + AI 用自然语言生成 UI、表单、流程。前端是最容易切入的方向之一。
继续学习的路径
必读
- Anthropic: Building Effective Agents
- Sebastian Raschka: Building a Large Language Model from Scratch
- llm-course — 从零到精通的开源课程
- 12-Factor Agents — Agent 工程实践原则
关注的人
- Andrej Karpathy(YouTube,前特斯拉/OpenAI)
- Simon Willison(simonwillison.net,每天一篇 LLM 文章)
- Jeremy Howard(fast.ai 创始人)
- Jerry Liu(LlamaIndex 作者)
追踪动态
- Hugging Face — 模型发布地
- Papers with Code
- The Batch — Andrew Ng 的周报
- Latent Space 播客
- X 上 AI 圈:
@karpathy@simonw@swyx@jerryjliu0
最后想说
AI 不是"会取代开发者",它只是一个前所未有的放大器。一个会用 AI 的前端开发者,能做到三年前十个前端才能做的事。
这个系列是起点,不是终点。真正的学习发生在你尝试解决自己真实问题的时候。
去做一个 AI 产品吧,哪怕只是给自己用的小工具。完工的第一天,你对 AI 的理解就比读 100 篇文章都深。
参考资料汇总
前 9 篇里的链接已经很多了,这里不再重复。强烈建议收藏:
- Awesome LLM Apps
- Awesome ChatGPT Prompts
- LLM Leaderboard — 用户盲测排行
- Artificial Analysis — 模型性能/价格对比
版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。
(采用 CC BY-NC-SA 4.0 许可协议进行授权)
本文标题:进阶方向:多模态、本地部署与成本优化
本文链接:https://www.sshipanoo.com/blog/ai/ai-for-frontend/10-进阶方向/
本文最后一次更新为 天前,文章中的某些内容可能已过时!