公開講演会の文字起こしをGeminiで実務レベルに自動化する手順

動画をそのままGeminiに投げて文字起こしができれば理想であるが，実際にはアップロードの制約と精度がボトルネックとなる。そこで「動画→音声抽出→軽量化→分割→Gemini投入→検証」という下ごしあえありのワークフローで「作業時間を削りつつ，最終品質を担保する」形で実現する。この記事はその手順を，作業メモとしてまとめる。

なぜ下ごしらえが要るのか
全体フロー
1. DaVinci Resolveで動画からWAVを抜き出す
2. Audacityでモノラル化し，mp3で軽量化する
3. Free Batch Music Splitterで9分間隔に分割する
4. Gemini投入時のプロンプト設計
5. 物語化を止めるための品質管理工程
取り扱い上の注意
まとめ

なぜ下ごしらえが要るのか

Geminiでは音声ファイルをアップロードして解析することができるが，無料枠では「総音声長10分まで」などの制約があり，長時間講演を一度に処理することはできない。加えて1プロンプトあたり最大10ファイルまで，音声以外も含めてサイズ上限があるようだ。したがって，音声ファイルの分割は実質必須である。

もうひとつの理由が品質である。Geminiは忠実に文字起こしをしてくれる一方で，文脈が途切れたり，聞き取りが曖昧になったりすると，それらしく整った「身に覚えのない物語」を生成することがある。これに気がつかず，次のファイル処理をおこなってしまうと，その物語を継続することになり，後工程での修正量が爆発的に増える。そのため，私は「分割＋冒頭検証＋差し戻し」を品質管理工程として入れ込み，総じて極力負担が少なくなる方法を選択している。

全体フロー

工程	目的	要点
1. DaVinci ResolveでWAV抽出	音声を確実に取り出す	DeliverのAudioでWAV出力
2. Audacityでmp3化＋モノラル	サイズ削減，Gemini投入向け	ステレオ音声をモノラル音声にするとともにmp3出力
3. 9分間隔で分割	制約内に収める	10分上限のため少し余裕を持たせて出力
4. Geminiで文字起こし	文字起こし	出力形式固定，補完禁止を明示
5. 冒頭検証＋差し戻し	品質管理工程	先頭20〜30秒の一致確認を必ず実施

1. DaVinci Resolveで動画からWAVを抜き出す

まずDaVinci Resolveで音声だけを書き出します。DaVinci Resolve Proであれば，AIを用いた文字起こしする機能があるようだが、あいにくフリー版のDaVinci Resolveにはその機能がついていない。

ここでは，DeliverからWAVファイルで音声を書き出す。ここではひとまず，ノイズリダクションなどの処理は行わず，非圧縮で書き出し，後段で圧縮することにする。

2. Audacityでモノラル化し，mp3で軽量化する

Geminiの制約を踏まえると，WAVファイルのままではサイズオーバーであるので，Audacityでmp3にする。さらに，多くの講演において，ステレオである必要がないので，サイズ縮小を目的としてモノラル化する。

私のデフォルトは次のとおり。
・mp3：CBR 96kbps Mono

3. Free Batch Music Splitterで9分間隔に分割する

無料枠を前提にすると，Geminiの音声は総音声長10分までであるため，少し余裕をとって9分で分割する。分割ツールは何でもよいが，私はFree Batch Music Splitterを使った。MP3やWAVなど複数形式に対応し，時間指定で分割できるためである。

4. Gemini投入時のプロンプト設計

Geminiにそのまま投げると，講演内容を整形した上で出力してしまう。そのため，出力仕様をあらかじめ伝えておく必要がある。

プロンプト例は次のとおりである。

あなたは文字起こしの担当者です。
添付音声を日本語で逐語的に文字起こししてください。

制約
1) 音声にない内容の補完，推測，創作は禁止です。
2) 聞き取れない箇所は［不明］と記し，無理に埋めないでください。
3) 可能なら話者を「話者A」「話者B」で区別してください。確信がない場合は区別しないでください。
4) 出力は次の形式に固定してください。
   - タイムスタンプは不要
   - 段落は話の切れ目で改行
   - 口癖や言い淀みも可能な範囲で残す
まず冒頭30秒だけを出力してください。

冒頭30秒だけを先に出すのが肝です。ここで一致していれば続行します。一致していなければ即差し戻します。

5. 物語化を止めるための品質管理工程

私が実際におこなっている「品質管理工程」は次のとおりである。

冒頭30秒を出させる
自分の耳で冒頭30秒を再生し，整合を確認する
違う場合は，誤りを具体的に指摘してやり直させる
合ったら「続き」を出させる

差し戻しの言い方は，曖昧に怒るより，仕様を再提示して再実行させた方が安定するようだ。

差し戻し例は次のとおり。

冒頭が一致していません。
正しい冒頭は「本日はお忙しい中お集まりいただきありがとうございます。まず自己紹介から…」です。
補完や創作は禁止です。［不明］運用で構いません。
上記を踏まえ，最初から冒頭30秒をやり直してください。

この「冒頭一致」さえ通れば，後半での物語化は大幅に減る。逆に，冒頭がズレたまま進めると，その後の全文が雪だるま式に架空化してしまう。

取り扱い上の注意

公開講演会でも，登壇者以外の発言や個人情報が紛れ込むことがある。外部サービスへ音声をアップロードする運用は，組織ルールと利用規約，データポリシーの確認が必須である。ここを曖昧にしたまま自動化だけ進めると，後で全部やり直しになってしまうので注意が必要である。

まとめ

このワークフローの価値は「Geminiの自動化」そのものより，「制約内に収める前処理」と「品質管理工程」にある。

DaVinci ResolveでWAV抽出→Audacityでモノラルmp3化→9分分割→冒頭検証付きでGemini投入，この形にすると，効率的に文字起こしが実現できる。