multimodal-extraction | 技能详情 | OpenClaw Study

给定本地视频或视频 URL，必要时下载媒体，提取幻灯片帧和关键时刻，转录音频，并生成一个 Markdown 时间线，在相应的时间戳处将截图与转录内容交错排列。用于将视频转换为多模态笔记文件、与幻灯片同步的转录稿、截图增强的转录稿或带图像的演讲回顾等场景。

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。