LLM应用开发——多租户架构设计

前言

在构建 SaaS 模式的 AI 应用时，多租户架构（Multi-tenancy）是决定系统能否规模化增长的核心。与传统 SaaS 不同，AI 应用的多租户设计不仅涉及关系型数据库，还涉及向量数据库的隔离、LLM Token 配额的精准控制以及租户特有 Prompt 的安全管理。本文将深入探讨如何构建一个安全、可扩展且高性能的企业级多租户 AI 架构。

多租户隔离的三大模型

在 AI 场景下，我们通常根据隔离强度和成本平衡，将架构分为以下三种模型：

模型	描述	适用场景	成本/复杂度
Silo (孤岛模型)	每个租户拥有完全独立的资源（DB, Vector DB, LLM 实例）	银行、政府等极高安全性需求	极高
Bridge (桥接模型)	共享计算资源，但数据库/索引级别物理隔离	中大型企业客户，需要一定定制化	中
Pool (池化模型)	所有租户共享资源，通过逻辑标识（Tenant ID）隔离	大众化 SaaS，初创企业	低

向量数据库的隔离深度

向量数据库（Vector DB）是 RAG 应用的核心。其隔离策略直接影响检索性能和安全性。

1. 索引级隔离 (Index-level)

每个租户一个独立的 Index。

优点：物理隔离最彻底，性能不受其他租户数据量影响。
缺点：Index 数量受限（如 Pinecone 免费版仅支持 1 个），维护成本随租户增加线性增长。

2. 命名空间隔离 (Namespace/Partition)

在同一个 Index 内使用 Namespace。

优点：管理简单，支持数千个租户。
缺点：底层可能仍共享部分计算资源，极端情况下存在侧信道攻击风险。

3. 字段级过滤 (Metadata Filtering)

所有数据混在一起，查询时带上 where tenant_id = 'xxx'。

优点：成本最低，扩展性无限。
缺点：查询性能随总数据量增加而下降；如果代码逻辑出错，极易发生数据越权。

核心技术实现：租户上下文传播

在分布式系统中，确保每个请求都携带正确的租户信息至关重要。

# 使用 ContextVars 实现租户上下文在异步任务中的传播
from contextvars import ContextVar
from fastapi import Request, Depends

tenant_context: ContextVar[str] = ContextVar("tenant_id", default="public")

async def tenant_middleware(request: Request, call_next):
    # 从 Header 或 JWT 中提取租户 ID
    tenant_id = request.headers.get("X-Tenant-ID", "public")
    token = tenant_context.set(tenant_id)
    try:
        response = await call_next(request)
    finally:
        tenant_context.reset(token)
    return response

# 在 RAG 检索时自动应用过滤
def get_vector_store():
    current_tenant = tenant_context.get()
    return VectorStore(filter={"tenant_id": current_tenant})

Token 配额与精细化计费

LLM 的调用成本极高，必须建立完善的计量系统。

1. 阶梯式配额管理

软限制 (Soft Limit)：达到 80% 时发送预警邮件。
硬限制 (Hard Limit)：达到 100% 时停止服务或降级为低成本模型（如从 GPT-4 降级为 GPT-4o-mini）。

2. 异步计量架构

为了不增加 LLM 调用的延迟，计量通常采用异步方式。

import asyncio
from aioredis import Redis

async def track_usage(tenant_id: str, tokens: int):
    """异步记录 Token 消耗"""
    redis = await Redis.from_url("redis://localhost")
    # 使用 Redis 计数器进行实时配额检查
    await redis.incrby(f"usage:{tenant_id}:daily", tokens)
    await redis.expire(f"usage:{tenant_id}:daily", 86400)

---

#### 进阶：多租户微调与 Multi-LoRA 隔离

在高级场景下，不同租户可能需要不同的模型表现。例如，法律行业的租户需要严谨的语气，而创意行业的租户需要活泼的语气。

#### vLLM Multi-LoRA 方案
你不需要为每个租户部署一个完整的模型（那太贵了）。你可以部署一个**基础模型 (Base Model)**，并为每个租户动态加载一个微小的 **LoRA 适配器 (Adapter)**。

- **原理**：vLLM 支持在同一个推理实例中同时加载数百个 LoRA 适配器。
- **隔离**：请求时通过 `request_id` 指定对应的 `lora_name`。

```python
# vLLM 请求示例
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

def call_tenant_model(tenant_id: str, prompt: str):
    # 假设每个租户的 LoRA 适配器名称就是其 tenant_id
    response = client.chat.completions.create(
        model=f"base-model:{tenant_id}", # 动态指定租户适配器
        messages=[{"role": "user", "content": prompt}]
    )
    return response

租户特有 Prompt 管理

不同租户往往有自己的 System Prompt 或 Few-shot 示例。

动态 Prompt 注入

def get_tenant_prompt(tenant_id: str, base_prompt: str):
    # 从数据库加载租户自定义的约束
    tenant_config = db.get_tenant_config(tenant_id)
    custom_instructions = tenant_config.get("instructions", "")
    
    return f"{base_prompt}\n\n租户特定约束：\n{custom_instructions}"

安全性：防止跨租户数据泄露

在多租户 AI 应用中，最严重的事故是租户 A 的数据出现在了租户 B 的回答中。

风险点

缓存污染：如果语义缓存没有包含 tenant_id，租户 B 可能会命中租户 A 的缓存结果。
Prompt 注入：恶意用户通过 Prompt 注入试图读取系统上下文中的其他租户信息。
RAG 检索越权：向量数据库过滤逻辑失效。

防护措施

强制 Key 隔离：所有缓存键必须以 tenant_id: 开头。
检索后校验：在 RAG 检索出结果后，代码层再次校验每个文档的 tenant_id 标签。
独立 API Key：为每个租户生成独立的下游 API Key（如 OpenAI Key），实现物理层面的计费和限流隔离。

总结

多租户架构不是一成不变的，它是一个随业务规模演进的过程。

初期：Pool 模型 + Metadata 过滤，快速上线。
中期：Bridge 模型 + Namespace，兼顾成本与隔离。
后期：Multi-LoRA 动态适配，提供深度定制化能力。

掌握了多租户架构，你才能真正构建出能够支撑成千上万企业客户的工业级 AI 平台。

async def track_usage(tenant_id: str, prompt_tokens: int, completion_tokens: int): redis = Redis() # 使用 Redis 原子操作累加 Token total = prompt_tokens + completion_tokens await redis.incrby(f”usage:{tenant_id}:total_tokens”, total) # 记录详细日志用于月底对账 await db.save_usage_log(tenant_id, prompt_tokens, completion_tokens) ```

租户特有配置与 Prompt 隔离

不同租户往往需要不同的“性格”或业务逻辑。

System Prompt 模板化：

# 租户配置表
tenant_id: "apple_store"
system_prompt: "你是一名苹果零售店的专家，请使用专业且亲切的口吻回答..."
tools_enabled: ["product_search", "appointment_booking"]

动态注入：在调用 LLM 前，根据 tenant_context 动态加载对应的配置。

安全性与合规性 (Compliance)

数据驻留 (Data Residency)：某些租户要求数据必须存储在特定地区（如欧盟 GDPR）。这要求架构支持多区域部署。
自带密钥 (BYOK)：高级租户可能要求使用他们自己的加密密钥来加密存储在向量数据库中的数据。
审计日志 (Audit Logs)：记录每个租户的所有 LLM 调用、检索记录和配置变更，以备合规检查。

总结

多租户架构不是一成不变的，它是一个随业务规模演进的过程。在初期，Pool 模型 + Metadata 过滤 可以快速上线；随着大客户的加入，Bridge 模型 + Namespace 成为主流；而对于顶级企业客户，Silo 模型 则是赢得信任的关键。

参考资源

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题：《 LLM应用开发——多租户架构设计》

本文链接：http://localhost:3015/ai/%E5%A4%9A%E7%A7%9F%E6%88%B7%E6%9E%B6%E6%9E%84.html

本文最后一次更新为天前，文章中的某些内容可能已过时！