multimodal-extraction | スキル詳細 | OpenClaw Study

ローカルのビデオまたはビデオのURLを受け取り、必要に応じてメディアをダウンロードし、スライドのフレームや重要な場面を抽出して音声を文字起こしし、該当するタイムスタンプでスクリーンショットと文字起こしを交互に配置したMarkdownタイムラインを書き出します。ビデオをマルチモーダルなノートファイル、スライド同…

ローカルのビデオまたはビデオのURLを受け取り、必要に応じてメディアをダウンロードし、スライドのフレームや重要な場面を抽出して音声を文字起こしし、該当するタイムスタンプでスクリーンショットと文字起こしを交互に配置したMarkdownタイムラインを書き出します。ビデオをマルチモーダルなノートファイル、スライド同期の...

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。

English 简体中文 繁體中文 Español Português