跨越模态鸿沟:像素如何转化为语言模型可消费的语义

模态冲突:为什么 LLM 无法直接看见像素

大型语言模型(LLM)的本质是处理离散的 Token 序列。而图像是高度冗余的连续像素矩阵。要让 LLM “理解”图像,核心矛盾不在于模型能力不足,而在于空间表示的不一致。

视觉编码器(如 ViT)将图像转换为一系列 Patch 的特征向量,这些向量存在于视觉空间;LLM 的输入存在于文本词嵌入空间。项目 31 的核心任务,就是构建一座“桥梁”,将视觉特征映射到 LLM 的词表空间中,使其看起来像是一串特殊的“视觉单词”。

第一阶段:视觉编码器的选择与特征提取

我们通常不从零训练视觉模型,而是使用预训练的视觉主干(Backbone),例如基于 CLIP(Contrastive Language-Image Pre-training)的 ViT-L/14。

  1. 图像预处理:图像被调整为固定分辨率(如 224x224 或 336x336),并切分为固定大小的 Patch(如 14x14 像素)。
  2. 特征层选择:我们通常不取 ViT 的最后一层输出(那是为了分类或对比学习设计的,语义过于压缩),而是取倒数第二层或最后几层的隐藏状态(Hidden States)。这些特征保留了更丰富的空间位置信息和局部细节。

第二阶段:连接器(Connector)的设计数学

这是多模态模型的灵魂所在。我们需要将视觉特征维度 $D_{v}$ 转换为 LLM 的隐藏层维度 $D_{l}$。

1. 线性投影(Linear Projection)

这是 LLaVA 等早期模型采用的方法。使用一个简单的矩阵 $W \in \mathbb{R}^{D_{v} \times D_{l}}$ 进行线性变换。 $V_{aligned} = V_{raw} \cdot W$ 优点是参数极少,训练极其稳定。缺点是它假设视觉空间与文本空间之间存在简单的线性对应关系。

2. 多层感知机(MLP)

使用两层或三层带激活函数(如 GELU)的全连接层。这种非线性变换能够更好地处理复杂特征的对齐。目前绝大多数高性能开源 VLM 均采用两层 MLP 作为连接器。

3. 抽象器(Abstractor / Resampler)

对于高分辨率图像,Patch 的数量可能非常庞大(例如 24x24=576 个 Token),这会急剧消耗 LLM 的上下文窗口。 Flamingo 或 Qwen-VL 采用了基于 Query 的重采样机制:定义一组可学习的固定数量(如 64 个)的 Query Token,通过 Cross-Attention 去视觉特征里“抽取”信息。无论原始图像多大,最后进入 LLM 的视觉 Token 数量是固定的。

第三阶段:对齐训练的两步走战略

仅仅接上连接器是不够的,必须通过训练让 LLM 理解这些新来的向量代表什么。

1. 预训练阶段(Feature Alignment)

  • 数据:大量的图像-文本对(Image-Text Pairs),通常是简短的标题描述。
  • 策略:冻结视觉编码器和 LLM,只训练连接器。
  • 目标:让连接器学会将视觉特征映射到词向量空间。此时模型只会进行简单的物体识别和描述。

2. 指令微调阶段(Instruction Tuning)

  • 数据:多模态对话数据(如:图像 + “这张图中发生了什么?” + 答案)。
  • 策略:通常冻结视觉编码器,但开启 LLM 的微调(或使用 LoRA)。
  • 目标:让模型学会根据图像内容执行复杂的指令,如逻辑推理、OCR 识别、情感分析等。

空间与分辨率的权衡

在实现过程中,你会发现分辨率是 VLM 的生命线。224x224 的分辨率对于识别猫狗足够,但对于阅读文档中的小字(OCR)几乎无效。

目前的进阶方案包括:

  • 动态分辨率(AnyRes):将一张大图切分为多个子图,分别通过视觉编码器提取特征,最后再拼接起来。
  • 位置编码增强:由于图像是二维结构,直接展平为一维序列会损失空间关系。在连接器后重新注入二维位置编码可以显著提升模型对物体相对位置的感知。

实现验证:如何判断桥接是否成功

在你的 Capstone 项目中,可以通过以下现象验证 Adapter 的性能:

  1. 幻觉率:模型是否在图中没有某个物体时言之凿凿地说有?(通常是因为对齐不牢靠,LLM 在用预训练概率盲猜)。
  2. 空间感知:让模型描述“左边的物体”和“右边的物体”,观察其对二维坐标的理解。
  3. 文本敏感度:在图像中放入文字,观察模型是否能精准提取特征。

总结

多模态 Adapter 的本质不是“理解图像”,而是“特征翻译”。它通过一个极小的参数层,将视觉编码器生成的特征向量转换为 LLM 能够理解的“伪 Token”。这种架构的优雅之处在于:它极大地保留了 LLM 原有的语言推理能力,同时赋予了它观察世界的能力。

版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。

(采用 CC BY-NC-SA 4.0 许可协议进行授权)

本文标题:项目 31:多模态视觉语言桥接器(Vision-Language Adapter)

本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/lab-31-multimodal/

本文最后一次更新为 天前,文章中的某些内容可能已过时!