Gemini CLI のスキルで動画から議事録を自動生成する

動画ファイルから議事録を自動生成する Gemini CLI 用のスキル video-to-minutes を作成しました。

video-to-minutes スキルの概要

動画ファイルを入力として、以下の処理を順番に実行し、最終的に Markdown 形式の議事録を生成するスキルです。

ステップ	処理内容	使用ツール
1	前提ツールの確認・インストール	`ffmpeg`, `whisper`
2	ユーザーから動画パスとキャプチャ間隔を取得（デフォルト 60 秒）	-
3	動画から音声を抽出	`ffmpeg`
4	音声を文字起こし（自動実行）	`whisper` (turbo モデル)
5	動画から定期的に画像をキャプチャ	`ffmpeg`
6	固有名詞をユーザーから収集	-
7	文字起こし結果を解析して議事録を生成	Gemini
8	Markdown ファイルとして保存	-

以前の記事「Gemini CLI のデフォルト能力が高すぎてスキル作成の順番を考え直した」で、まず AI にそのまま依頼してみて、繰り返し使う Ops だけをスキル化する DCAP サイクルを紹介しました。

今回の video-to-minutes は、まさにスキル化すべきケースでした。

スキル化の条件	該当する理由
繰り返し実行する	会議のたびに同じワークフローを実行する
微調整が定まった	ffmpeg のオプションや Whisper のモデル設定が固まった
他者と共有したい	チームメンバーも同じ手順で議事録を作成できる
品質を担保したい	議事録のフォーマットを統一したい

Whisper による文字起こしはエージェントが turbo モデルで自動実行します。

whisper meeting_audio.wav --language ja --model turbo

生成された meeting_audio.txt は自動検出され、見つからない場合のみユーザーにパスを確認します。

議事録生成の前に、会議に登場する固有名詞（人名・会社名・プロダクト名など）をユーザーから収集するステップを追加しました。文字起こしの誤変換を減らし、議事録の精度を向上させるための工夫です。

音声の文字起こしだけでなく、動画から一定間隔で画像をキャプチャすることで、スライドやホワイトボードの内容も議事録に含められます。

ffmpeg -i "<VIDEO_FILE_PATH>" -vf fps=1/<INTERVAL_IN_SECONDS> captures/capture_%03d.png

キャプチャ間隔はユーザーが指定できるため、会議の内容に応じて柔軟に調整できます。

動画から議事録を生成するワークフローは、複数のツールを順番に実行する必要があり、毎回手動で行うのは手間がかかります。このような繰り返し使う複数ステップのワークフローこそ、スキル化の効果が大きいです。

スキルは oh-my-skills リポジトリで公開しています。

以上、動画から議事録を自動生成するスキルを作った、現場からお送りしました。