大型语言与视觉助手。支持视觉指令微调和基于图像的对话。将 CLIP 视觉编码器与 Vicuna/LLaMA 语言模型结合。支持多轮图像聊天、视觉问答和按指令执行任务。适用于视觉-语言聊天机器人或图像理解任务,尤其适合对话式图像分析。
大型语言与视觉助手。支持视觉指令微调和基于图像的对话。将 CLIP 视觉编码器与 Vicuna/LLaMA 语言模型结合。支持多轮图像聊天、视觉问答和按指令执行任务。适用于视觉-语言聊天机器人或图像理解任务,尤其适合对话式图像分析。
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。