llava | 技能詳情 | OpenClaw Study

大型語言與視覺助理。支援視覺指令微調與基於影像的對話。結合 CLIP 視覺編碼器與 Vicuna/LLaMA 語言模型。支援多回合影像聊天、視覺問答與指令追隨。可用於視覺-語言聊天機器人或影像理解任務，特別適合會話式影像分析。

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。