两个故事,都关乎未来

这篇想谈两个看似无关、实则指向同一件事的议题:幻觉与开源崛起。前者是 LLM 至今未能根治的工程问题,决定了你的产品需不需要兜底;后者是过去三年最重要的产业事件,决定了你能不能脱离单一供应商。这两件事合在一起,构成了一个合格的前端 AI 开发者应有的"底层世界观"。

从一桩诉讼说起

2023 年初纽约一位律师在为案件做文书准备时求助 ChatGPT,得到了一份看起来完全合规的判例引用——六个案件、清晰的原被告、准确的年份和卷宗号。他交到法庭,法官查了一下,发现这六个案件全部不存在。律师被罚款五千美元,这事成了"幻觉"一词走出技术圈的标志性事件。从此无论是公众还是监管机构都开始认真地问:这东西到底为什么会说谎?

理解幻觉不能靠道德化的想象("它是不是在骗我"),要回到它工作的本质。

为什么幻觉是必然的

LLM 做的事不是"查事实",是"预测下一个最可能的 token"。你问它"爱因斯坦发表相对论的年份",它会在内部得到一个概率分布——1905 占 40%、1915 占 30%、1916 占 15%、其他年份瓜分剩下的。它会从这个分布里采样一个输出。但请注意一件事:它本身并不知道哪一个是对的。它只知道哪一个在训练数据里"常被说"。

当模型足够确信(分布非常尖锐),它给出的答案往往正确。当它不确信(分布比较平),它仍然会输出一个答案,并且用同样自信的语气——因为它没有"我不知道"的内建机制,训练过程里"给出答案"比"说不知道"更被奖励。这就是幻觉的根源。

具体的成因还有几层。训练数据本身充满错误、矛盾、过时的信息,模型无条件地吸收了。插值现象是另一种来源:模型见过"A 和 B 结了婚"、"B 和 C 结了婚",可能在某个 prompt 下插值生成"A 和 C 结了婚"。长尾知识不足导致模型对热门话题记得很牢,对小众领域全靠猜。对齐训练的副作用也存在——为了让模型"更有帮助",它被训练得更倾向于给答案而不是说不知道,这种过度的 helpfulness 反而助长了编造。最后还有一种压力性幻觉:当 prompt 要求模型"引用权威文献",它会乖乖编造出看起来完全合格的假论文,因为格式正确在训练里曾被奖励过。

怎么让幻觉少一点

真正成熟的应用从不指望模型"不撒谎",而是用系统工程把撒谎的机会和影响降到最低。

最核心的一招是 RAG——别让它凭记忆回答,把权威材料塞进 prompt 要求它基于材料作答。主系列第 5 篇专门讲了。第二招是工具调用——查数据库、调搜索、调 API,不要相信模型自己的"知识"。第三招是让模型先思考再回答,推理模型(o 系列、Claude 的 thinking 模式)的幻觉率明显低于普通模型,因为思考链给了它"内部校对"的机会。第四招是温度调低,生成事实类内容时把 temperature 设到 0 到 0.3,减少随机性带来的胡编。

再往细了说还有几种技巧。在系统提示里明确允许模型说"不知道"——一句简单的"如果不确定请明说,不要编造"就能让幻觉下降一截。Self-consistency 是另一个常被忽视的手段:同一个推理问题跑 3 到 5 次,取多数一致的答案,这能显著提升稳定性。引用+可验证也值得做——让模型回答时必须附上来源,前端拿到来源之后可以程序化地校验链接是否真的存在、页面内容是否支持答案。最后,logprobs 监控——模型对自己回答的平均对数概率是个"自信度指标",整句异常低时很可能在猜。

对前端开发者而言,还有一块 UI 层的工作常被忽视。显示来源、用不同颜色标注置信度、允许用户一键追问出处、避免用感叹号堆砌让 AI 的回答显得过度自信——这些细节决定了用户在遇到错误时会"警觉"还是"被误导"。做 AI 产品的 UX 不是锦上添花,是风险管理的一部分。

彻底根治?大概不行

学术界目前的共识是:只要生成模型的底层还是"概率预测下一个 token",幻觉就不可能完全消除。消除它的代价是砍掉模型的创造力,让它变成一个只能复述训练数据的查找引擎。真正靠谱的做法是接受它不完美,用系统工程——检索、工具、校验、UI、人工复核——层层兜底。

这也是为什么"AI 产品是一个端到端工程问题,不是一个模型问题"。模型只占 30% 的工作量,剩下 70% 在外围。如果你觉得自己是做前端的没什么 AI 发力点——恰恰相反,AI 产品真正的质量差异很大程度上就在这 70% 里。

开源的另一条故事线

讲完幻觉,我们来讲完全不同的另一件事,但它同样决定了你未来两三年会怎么构建 AI 应用。

2023 年之前,业界基本共识是"训练 LLM 要几十亿美金,只有巨头玩得起"。GPT-3、GPT-4、Claude、Gemini——所有 SOTA 都是闭源。开源有 BERT、GPT-2、GPT-J、BLOOM,但和闭源前沿差一个时代。

转折点是 2023 年 2 月。Meta 发布 LLaMA 论文,权重原本只授权给研究者,但很快被人在 BitTorrent 上放了出来。开源社区一夜之间拿到一个接近 GPT-3.5 水平的基础模型。接下来发生的事改变了行业:llama.cpp 让 LLaMA 在 MacBook 上跑起来,斯坦福用 600 美元微调出 Alpaca,LMSYS 做出 Vicuna 号称达到 ChatGPT 九成能力,LoRA 让微调成本降到几小时。一周之内,"运行大模型需要数据中心"这个共识被粉碎。

Meta 接下来的反应很有意思。面对泄露它没有封堵,而是干脆正式开源——Llama 2 商用免费,Llama 3 追到 GPT-4 附近,Llama 3.1 405B 宣告开源摸到闭源前沿。Zuckerberg 专门写过一篇长文解释:Meta 不靠卖 API 赚钱,基础设施商品化对它的长期战略有利,让人才和工具聚集到 Meta 的标准上比赚点 API 费用重要得多。这种产业级的阳谋让整个开源生态有了真正的"大厂靠山"。

与此同时,中国开源的崛起速度让很多人始料未及。阿里的通义千问 Qwen 系列成为中文能力最强的开源选项,Qwen 2.5、Qwen 3 在主流 benchmark 上和 Llama 打得有来有回,中文任务甚至超过了很多西方模型。DeepSeek 走的是硬核训练路线,2024 年底 V3 发布的时候业界震惊——671B MoE、激活 37B、训练成本不到 600 万美金(相对 GPT-4 传闻的上亿),性能对标 GPT-4o,而且权重、训练细节、论文全部开源。紧接着 2025 年 1 月 DeepSeek-R1 发布,对标 o1 的推理模型,同样开源。那一周 Nvidia 单日跌超 17%,美股震荡,行业第一次被迫认真思考:顶尖 LLM 是不是就只能靠堆算力这一条路。DeepSeek 几个技术贡献——MoE 架构细节、FP8 训练、GRPO 强化学习算法——都被后续工作广泛吸收。

其他玩家也各有地盘。Mistral 在小模型尺寸上做到极致,Mistral 7B 一度是性价比标杆。李开复 01.ai 的 Yi 系列、Google 的 Gemma(闭源 Gemini 的开源兄弟版)、微软的 Phi(主打小而强)、智谱的 ChatGLM……每家都在不同维度上给出选择。

开源和闭源的真实差距

到 2026 年初这个时间点,开源和闭源的格局大致是这样。极限推理、最前沿的多步推理任务上,闭源仍有领先(GPT-5 和 Opus 代表上限)。通用对话能力上,闭源稍稍领先但差距在两个月内被抹平是常事。中文能力上,开源(Qwen、DeepSeek)反而领先大部分西方闭源模型。代码能力上两边接近,某些编程 benchmark 开源甚至反超。长上下文上 Gemini 独领风骚,其他厂商都在追。至于本地部署、微调自由度、成本控制、避免供应商锁定这几个维度,开源是完全的优势方,闭源没有对应物。

开源对你意味着什么

对前端开发者而言,开源带来的不是"终于能不花钱了"这么简单,而是几个具体的实际权利。

第一是成本自由。自己部署一个 Llama 3.3 70B 或 Qwen 3,面向公司内部用户或小型产品,API 费用归零(只剩电费和硬件)。对于高频使用的内部工具、文档处理管线、数据清洗流水线,这一条能把月账单从几千美金降到几百。

第二是隐私可控。医疗、法律、金融、企业内部数据——这些场景下数据不出本地是刚性要求。闭源 API 再便宜也进不去,开源才是唯一选项。国内有些公司明文规定敏感数据不能走境外 API,本地部署开源模型是必然。

第三是定制灵活。闭源模型你只能用服务商给的版本,开源你可以 LoRA 微调出一个专属模型——学会你公司的术语、符合你的文风、处理你独有的任务。这种"专家模型"的效果有时候比旗舰通用模型更好,因为它被真正贴合过。

第四是避免供应商锁定。闭源 API 涨价、改策略、下线旧模型、限制用途——这些事情一直在发生,你没有任何对抗手段。开源权重在你硬盘里,服务商就算明天倒闭,你的模型照样跑。这是长期产品最该买的一份保险。

第五是学习资源。所有开源模型的训练论文、权重、工具链、评测都是公开的,想理解"这东西怎么工作、为什么这么设计",开源是唯一真正可探究的途径。闭源只给你看 changelog。

怎么上手

入门的最简路径是装 Ollama——一个命令 curl -fsSL https://ollama.com/install.sh | sh 装好,ollama pull qwen2.5ollama pull llama3.2 下个模型,它默认在 http://localhost:11434 暴露 OpenAI 兼容 API。你之前写过的所有调 OpenAI API 的代码,把 baseURL 改一下就能原地跑本地模型。想要图形界面就用 LM Studio。

进阶路线分几个方向。想做生产级推理服务走 vLLM,吞吐、KV Cache 管理、动态 batch 都做得很成熟。想在 Apple Silicon 上榨干硬件用 MLX(Apple 自家的 ML 框架,专门优化 Metal)。想做微调用 HuggingFace 的 PEFT 库,LoRA 几行代码就能跑。想在浏览器里跑可以用 WebLLM 或 Transformers.js,这两个配合 WebGPU 已经能让小模型在用户浏览器里跑起来,隐私极佳。

两个议题的共同启示

把幻觉和开源这两个看起来毫不相关的议题放在一起,是因为它们指向同一件事:LLM 不是一个黑盒魔法,而是一个具体的、有局限、有演化路径、可以被理解的技术产物。

懂幻觉原理,你不会迷信、不会恐慌、会给产品设计兜底。懂开源崛起,你不会把所有鸡蛋放在一个闭源篮子里、能在成本和隐私之间做灵活取舍。这两件事是"有 AI sense"和"没 AI sense"的分水岭,是一个合格的 AI 时代开发者最该内化的两个基础判断力。

这个行业还会剧烈演化下去。你不需要追每个新闻,但需要建立对它的第一性理解。到这里,加上主系列和前面四篇番外,基本够你在未来几年里读懂大部分新闻、做出经得起时间检验的技术决策。

参考资料

幻觉方向值得一读的综述和实证研究:

开源方向的关键文献和参考:

版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。

(采用 CC BY-NC-SA 4.0 许可协议进行授权)

本文标题:番外 5:幻觉与开源崛起——LLM 的两个关键议题

本文链接:https://www.sshipanoo.com/blog/ai/ai-for-frontend/番外05-幻觉与开源/

本文最后一次更新为 天前,文章中的某些内容可能已过时!