multimodal-ai | 技能詳情 | OpenClaw Study

用於構建結合文字、影像、音訊與影片的多模態 AI 應用的模式集合。涵蓋視覺 API、音訊轉寫與統一流程。當提到「多模態 AI、視覺 API、影像理解、GPT-4V、Claude Vision、音訊轉寫、Whisper、文件抽取、影像轉文字」時使用。

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。