動画ファイルから議事録を自動生成する Gemini CLI 用のスキル video-to-minutes を作成しました。
video-to-minutes スキルの概要
動画ファイルを入力として、以下の処理を順番に実行し、最終的に Markdown 形式の議事録を生成するスキルです。
| ステップ | 処理内容 | 使用ツール |
|---|---|---|
| 1 | 前提ツールの確認・インストール | ffmpeg, whisper |
| 2 | ユーザーから動画パスとキャプチャ間隔を取得(デフォルト 60 秒) | - |
| 3 | 動画から音声を抽出 | ffmpeg |
| 4 | 音声を文字起こし(自動実行) | whisper (turbo モデル) |
| 5 | 動画から定期的に画像をキャプチャ | ffmpeg |
| 6 | 固有名詞をユーザーから収集 | - |
| 7 | 文字起こし結果を解析して議事録を生成 | Gemini |
| 8 | Markdown ファイルとして保存 | - |
なぜスキル化したのか
以前の記事「Gemini CLI のデフォルト能力が高すぎてスキル作成の順番を考え直した」で、まず AI にそのまま依頼してみて、繰り返し使う Ops だけをスキル化する DCAP サイクルを紹介しました。
今回の video-to-minutes は、まさにスキル化すべきケースでした。
| スキル化の条件 | 該当する理由 |
|---|---|
| 繰り返し実行する | 会議のたびに同じワークフローを実行する |
| 微調整が定まった | ffmpeg のオプションや Whisper のモデル設定が固まった |
| 他者と共有したい | チームメンバーも同じ手順で議事録を作成できる |
| 品質を担保したい | 議事録のフォーマットを統一したい |
ワークフローのポイント
Whisper の文字起こしを自動実行
Whisper による文字起こしはエージェントが turbo モデルで自動実行します。
whisper meeting_audio.wav --language ja --model turbo生成された meeting_audio.txt は自動検出され、見つからない場合のみユーザーにパスを確認します。
固有名詞の事前収集で精度を向上
議事録生成の前に、会議に登場する固有名詞(人名・会社名・プロダクト名など)をユーザーから収集するステップを追加しました。文字起こしの誤変換を減らし、議事録の精度を向上させるための工夫です。
画像キャプチャで視覚情報も残す
音声の文字起こしだけでなく、動画から一定間隔で画像をキャプチャすることで、スライドやホワイトボードの内容も議事録に含められます。
ffmpeg -i "<VIDEO_FILE_PATH>" -vf fps=1/<INTERVAL_IN_SECONDS> captures/capture_%03d.pngキャプチャ間隔はユーザーが指定できるため、会議の内容に応じて柔軟に調整できます。
まとめ
動画から議事録を生成するワークフローは、複数のツールを順番に実行する必要があり、毎回手動で行うのは手間がかかります。このような繰り返し使う複数ステップのワークフローこそ、スキル化の効果が大きいです。
スキルは oh-my-skills リポジトリで公開しています。
以上、動画から議事録を自動生成するスキルを作った、現場からお送りしました。