multimodal-ai | 技能详情 | OpenClaw Study

用于构建将文本、图像、音频和视频结合的多模态AI应用的模式。涵盖视觉API、音频转写和统一管道。当提到“多模态AI、视觉API、图像理解、GPT-4V、Claude vision、音频转写、Whisper、文档抽取、图像转文本”时使用。

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。