项目 31:多模态视觉语言桥接器(Vision-Language Adapter)

跨越模态鸿沟:像素如何转化为语言模型可消费的语义