用于构建将文本、图像、音频和视频结合的多模态AI应用的模式。涵盖视觉API、音频转写和统一管道。 当提到“多模态AI、视觉API、图像理解、GPT-4V、Claude vision、音频转写、Whisper、文档抽取、图像转文本”时使用。
用于构建将文本、图像、音频和视频结合的多模态AI应用的模式。涵盖视觉API、音频转写和统一管道。 当提到“多模态AI、视觉API、图像理解、GPT-4V、Claude vision、音频转写、Whisper、文档抽取、图像转文本”时使用。
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。