llava | 技能详情 | OpenClaw Study

大型语言与视觉助手。支持视觉指令微调和基于图像的对话。将 CLIP 视觉编码器与 Vicuna/LLaMA 语言模型结合。支持多轮图像聊天、视觉问答和按指令执行任务。适用于视觉-语言聊天机器人或图像理解任务，尤其适合对话式图像分析。

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。