Gemini CLI のスキルで動画から議事録を自動生成する

重岡 正 ·  Fri, February 13, 2026

動画ファイルから議事録を自動生成する Gemini CLI 用のスキル video-to-minutes を作成しました。

video-to-minutes スキルの概要

動画ファイルを入力として、以下の処理を順番に実行し、最終的に Markdown 形式の議事録を生成するスキルです。

ステップ処理内容使用ツール
1前提ツールの確認・インストールffmpeg, whisper
2ユーザーから動画パスとキャプチャ間隔を取得(デフォルト 60 秒)-
3動画から音声を抽出ffmpeg
4音声を文字起こし(自動実行)whisper (turbo モデル)
5動画から定期的に画像をキャプチャffmpeg
6固有名詞をユーザーから収集-
7文字起こし結果を解析して議事録を生成Gemini
8Markdown ファイルとして保存-

なぜスキル化したのか

以前の記事「Gemini CLI のデフォルト能力が高すぎてスキル作成の順番を考え直した」で、まず AI にそのまま依頼してみて、繰り返し使う Ops だけをスキル化する DCAP サイクルを紹介しました。

今回の video-to-minutes は、まさにスキル化すべきケースでした。

スキル化の条件該当する理由
繰り返し実行する会議のたびに同じワークフローを実行する
微調整が定まったffmpeg のオプションや Whisper のモデル設定が固まった
他者と共有したいチームメンバーも同じ手順で議事録を作成できる
品質を担保したい議事録のフォーマットを統一したい

ワークフローのポイント

Whisper の文字起こしを自動実行

Whisper による文字起こしはエージェントが turbo モデルで自動実行します。

whisper meeting_audio.wav --language ja --model turbo

生成された meeting_audio.txt は自動検出され、見つからない場合のみユーザーにパスを確認します。

固有名詞の事前収集で精度を向上

議事録生成の前に、会議に登場する固有名詞(人名・会社名・プロダクト名など)をユーザーから収集するステップを追加しました。文字起こしの誤変換を減らし、議事録の精度を向上させるための工夫です。

画像キャプチャで視覚情報も残す

音声の文字起こしだけでなく、動画から一定間隔で画像をキャプチャすることで、スライドやホワイトボードの内容も議事録に含められます。

ffmpeg -i "<VIDEO_FILE_PATH>" -vf fps=1/<INTERVAL_IN_SECONDS> captures/capture_%03d.png

キャプチャ間隔はユーザーが指定できるため、会議の内容に応じて柔軟に調整できます。

まとめ

動画から議事録を生成するワークフローは、複数のツールを順番に実行する必要があり、毎回手動で行うのは手間がかかります。このような繰り返し使う複数ステップのワークフローこそ、スキル化の効果が大きいです。

スキルは oh-my-skills リポジトリで公開しています。

以上、動画から議事録を自動生成するスキルを作った、現場からお送りしました。

参考情報