LLM应用开发——高质量知识库构建指南

核心挑战：从“数据堆砌”到“知识建模”

在 RAG 系统中，开发者常犯的错误是直接将成千上万的 PDF 丢进向量数据库。这种“暴力检索”往往会导致：

上下文断裂：切片切断了关键逻辑。
语义稀疏：向量无法捕捉到文档中的层级关系。
噪声干扰：页眉、页脚、表格乱码严重影响检索质量。

高质量知识库的构建本质上是一个 ETL (Extract, Transform, Load) 过程，但其核心在于语义保留。

工业级知识库流水线

[数据源] 
   │
   ▼
[解析层 (Parsing)] ──→ (LlamaParse / Unstructured.io 处理复杂 PDF/表格)
   │
   ▼
[清洗层 (Cleaning)] ──→ (去除噪声、Markdown 格式化、公式提取)
   │
   ▼
[增强层 (Enrichment)] ──→ (利用 LLM 生成摘要、提取关键词、构建父子关系)
   │
   ▼
[切片层 (Chunking)] ──→ (语义切片、滑动窗口、层级切片)
   │
   ▼
[索引层 (Indexing)] ──→ (向量索引 + 关键词索引 + 知识图谱索引)

深度解析：复杂文档的处理艺术

1. 攻克 PDF 与表格

PDF 是 RAG 的噩梦。传统的 OCR 或文本提取会丢失表格结构。

推荐工具：LlamaParse (支持视觉解析)、Unstructured.io。
策略：将表格转换为 Markdown 或 HTML 格式，因为 LLM 对结构化文本的理解远好于纯文本。

2. 语义切片 (Semantic Chunking)

不再死板地按字符数切分，而是利用 Embedding 的相似度变化来寻找“语义断点”。

from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

# 基于语义相似度自动寻找切分点
text_splitter = SemanticChunker(OpenAIEmbeddings())

docs = text_splitter.create_documents([long_text])
for doc in docs:
    print(f"Chunk Length: {len(doc.page_content)}")

知识增强：让切片“自带背景”

为了防止检索到的切片缺乏上下文，我们需要进行元数据注入。

父子索引 (Parent-Document Retrieval)：
- 将文档切分为大块（Parent）和小块（Child）。
- 检索时匹配小块，但最终喂给 LLM 的是大块内容。
上下文补全 (Contextual Compression)：
- 在存储时，利用 LLM 为每个小切片生成一段 100 字的“前情提要”。
假设性问题 (Hypothetical Questions)：
- 为每个切片生成 3-5 个它能回答的问题，并将这些问题也向量化。

知识图谱的引入

对于关系复杂的知识，单纯的向量检索是不够的。

实体链接：将切片中的实体链接到知识图谱中的节点。
关系检索：通过图谱查询“A 的 B 是什么”，再结合向量检索获取详情。

持续维护与更新

进阶：引入知识图谱 (GraphRAG)

当知识库中存在大量跨文档的复杂关系时，单纯的向量检索会失效。

原理：利用 LLM 提取文档中的实体（Entity）和关系（Relationship），构建三元组 (Subject, Predicate, Object)。
优势：能够回答“总结 A 公司的所有投资项目”这类需要全局视野的问题。
实现：可以使用 Microsoft GraphRAG 框架或 Neo4j 数据库。

质量校验：如何评估知识库？

构建完知识库后，需要一套自动化指标来衡量其质量：

召回率 (Recall@K)：给定问题，正确的知识点是否出现在前 K 个结果中？
忠实度 (Faithfulness)：生成的回答是否完全基于检索到的知识，而非模型幻觉？
噪声容忍度：当检索到无关信息时，模型是否能准确识别并忽略？

总结

高质量知识库的构建是一个持续迭代的过程。从最初的简单切片，到引入语义切分、元数据增强，再到最终的知识图谱集成，每一步都是为了让 LLM 能够更精准、更全面地获取背景知识。记住：RAG 的上限由知识库的质量决定。

参考资源

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题：《 LLM应用开发——高质量知识库构建指南》

本文链接：http://localhost:3015/ai/%E7%9F%A5%E8%AF%86%E5%BA%93%E6%9E%84%E5%BB%BA.html

本文最后一次更新为天前，文章中的某些内容可能已过时！