用於構建結合文字、影像、音訊與影片的多模態 AI 應用的模式集合。涵蓋視覺 API、音訊轉寫與統一流程。當提到「多模態 AI、視覺 API、影像理解、GPT-4V、Claude Vision、音訊轉寫、Whisper、文件抽取、影像轉文字」時使用。
用於構建結合文字、影像、音訊與影片的多模態 AI 應用的模式集合。涵蓋視覺 API、音訊轉寫與統一流程。當提到「多模態 AI、視覺 API、影像理解、GPT-4V、Claude Vision、音訊轉寫、Whisper、文件抽取、影像轉文字」時使用。
本頁屬於 OpenClaw Skills 學習體系,涵蓋技能安裝、分類導覽與實戰連結。