llava | 技能详情 | OpenClaw Study

大型语言与视觉助手。支持视觉指令微调和基于图像的对话。将基于CLIP的视觉编码器与Vicuna/LLaMA系列语言模型结合。支持多轮图像聊天、视觉问答和指令跟随。适用于视觉-语言聊天机器人或图像理解任务,尤其适合对话式图像分析。LLaVA, Vision-Language, Multimodal, Visua…

大型语言与视觉助手。支持视觉指令微调和基于图像的对话。将基于CLIP的视觉编码器与Vicuna/LLaMA系列语言模型结合。支持多轮图像聊天、视觉问答和指令跟随。适用于视觉-语言聊天机器人或图像理解任务,尤其适合对话式图像分析。LLaVA, Vision-Language, Multimodal, Visual......

本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。

English 繁體中文 日本語 Español Português