将冻结的图像编码器与大型语言模型连接的视觉-语言预训练框架。需要图像描述、视觉问答、图像-文本检索或具备最先进零样本性能的多模态对话时使用。Multimodal, Vision-Language, Image Captioning, VQA, Zero-Shot
将冻结的图像编码器与大型语言模型连接的视觉-语言预训练框架。需要图像描述、视觉问答、图像-文本检索或具备最先进零样本性能的多模态对话时使用。Multimodal, Vision-Language, Image Captioning, VQA, Zero-Shot
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。