llava | 技能详情 | OpenClaw Study

大型语言与视觉助手。支持视觉指令微调和基于图像的对话。将基于CLIP的视觉编码器与Vicuna/LLaMA系列语言模型结合。支持多轮图像聊天、视觉问答和指令跟随。适用于视觉-语言聊天机器人或图像理解任务，尤其适合对话式图像分析。LLaVA, Vision-Language, Multimodal, Visua…

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。