大型語言與視覺助理。支援視覺指令微調與基於影像的對話。結合基於 CLIP 的視覺編碼器與 Vicuna/LLaMA 系列語言模型。支援多回合影像聊天、視覺問答與指令跟隨。適用於視覺-語言聊天機器人或影像理解任務,特別適合對話式影像分析。LLaVA, Vision-Language, Multimodal, V…
大型語言與視覺助理。支援視覺指令微調與基於影像的對話。結合基於 CLIP 的視覺編碼器與 Vicuna/LLaMA 系列語言模型。支援多回合影像聊天、視覺問答與指令跟隨。適用於視覺-語言聊天機器人或影像理解任務,特別適合對話式影像分析。LLaVA, Vision-Language, Multimodal, Vis......
本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。