動画をそのままGeminiに投げて文字起こしができれば理想であるが,実際にはアップロードの制約と精度がボトルネックとなる。そこで「動画→音声抽出→軽量化→分割→Gemini投入→検証」という下ごしあえありのワークフローで「作業時間を削りつつ,最終品質を担保する」形で実現する。この記事はその手順を,作業メモとしてまとめる。
なぜ下ごしらえが要るのか
Geminiでは音声ファイルをアップロードして解析することができるが,無料枠では「総音声長10分まで」などの制約があり,長時間講演を一度に処理することはできない。加えて1プロンプトあたり最大10ファイルまで,音声以外も含めてサイズ上限があるようだ。したがって,音声ファイルの分割は実質必須である。
もうひとつの理由が品質である。Geminiは忠実に文字起こしをしてくれる一方で,文脈が途切れたり,聞き取りが曖昧になったりすると,それらしく整った「身に覚えのない物語」を生成することがある。これに気がつかず,次のファイル処理をおこなってしまうと,その物語を継続することになり,後工程での修正量が爆発的に増える。そのため,私は「分割+冒頭検証+差し戻し」を品質管理工程として入れ込み,総じて極力負担が少なくなる方法を選択している。
全体フロー
| 工程 | 目的 | 要点 |
|---|---|---|
| 1. DaVinci ResolveでWAV抽出 | 音声を確実に取り出す | DeliverのAudioでWAV出力 |
| 2. Audacityでmp3化+モノラル | サイズ削減,Gemini投入向け | ステレオ音声をモノラル音声にするとともにmp3出力 |
| 3. 9分間隔で分割 | 制約内に収める | 10分上限のため少し余裕を持たせて出力 |
| 4. Geminiで文字起こし | 文字起こし | 出力形式固定,補完禁止を明示 |
| 5. 冒頭検証+差し戻し | 品質管理工程 | 先頭20〜30秒の一致確認を必ず実施 |
1. DaVinci Resolveで動画からWAVを抜き出す
まずDaVinci Resolveで音声だけを書き出します。DaVinci Resolve Proであれば,AIを用いた文字起こしする機能があるようだが、あいにくフリー版のDaVinci Resolveにはその機能がついていない。
ここでは,DeliverからWAVファイルで音声を書き出す。ここではひとまず,ノイズリダクションなどの処理は行わず,非圧縮で書き出し,後段で圧縮することにする。
2. Audacityでモノラル化し,mp3で軽量化する
Geminiの制約を踏まえると,WAVファイルのままではサイズオーバーであるので,Audacityでmp3にする。さらに,多くの講演において,ステレオである必要がないので,サイズ縮小を目的としてモノラル化する。
私のデフォルトは次のとおり。
・mp3:CBR 96kbps Mono
3. Free Batch Music Splitterで9分間隔に分割する
無料枠を前提にすると,Geminiの音声は総音声長10分までであるため,少し余裕をとって9分で分割する。分割ツールは何でもよいが,私はFree Batch Music Splitterを使った。MP3やWAVなど複数形式に対応し,時間指定で分割できるためである。
4. Gemini投入時のプロンプト設計
Geminiにそのまま投げると,講演内容を整形した上で出力してしまう。そのため,出力仕様をあらかじめ伝えておく必要がある。
プロンプト例は次のとおりである。
あなたは文字起こしの担当者です。
添付音声を日本語で逐語的に文字起こししてください。
制約
1) 音声にない内容の補完,推測,創作は禁止です。
2) 聞き取れない箇所は[不明]と記し,無理に埋めないでください。
3) 可能なら話者を「話者A」「話者B」で区別してください。確信がない場合は区別しないでください。
4) 出力は次の形式に固定してください。
- タイムスタンプは不要
- 段落は話の切れ目で改行
- 口癖や言い淀みも可能な範囲で残す
まず冒頭30秒だけを出力してください。
冒頭30秒だけを先に出すのが肝です。ここで一致していれば続行します。一致していなければ即差し戻します。
5. 物語化を止めるための品質管理工程
私が実際におこなっている「品質管理工程」は次のとおりである。
- 冒頭30秒を出させる
- 自分の耳で冒頭30秒を再生し,整合を確認する
- 違う場合は,誤りを具体的に指摘してやり直させる
- 合ったら「続き」を出させる
差し戻しの言い方は,曖昧に怒るより,仕様を再提示して再実行させた方が安定するようだ。
差し戻し例は次のとおり。
冒頭が一致していません。
正しい冒頭は「本日はお忙しい中お集まりいただきありがとうございます。まず自己紹介から…」です。
補完や創作は禁止です。[不明]運用で構いません。
上記を踏まえ,最初から冒頭30秒をやり直してください。
この「冒頭一致」さえ通れば,後半での物語化は大幅に減る。逆に,冒頭がズレたまま進めると,その後の全文が雪だるま式に架空化してしまう。
取り扱い上の注意
公開講演会でも,登壇者以外の発言や個人情報が紛れ込むことがある。外部サービスへ音声をアップロードする運用は,組織ルールと利用規約,データポリシーの確認が必須である。ここを曖昧にしたまま自動化だけ進めると,後で全部やり直しになってしまうので注意が必要である。
まとめ
このワークフローの価値は「Geminiの自動化」そのものより,「制約内に収める前処理」と「品質管理工程」にある。
DaVinci ResolveでWAV抽出→Audacityでモノラルmp3化→9分分割→冒頭検証付きでGemini投入,この形にすると,効率的に文字起こしが実現できる。

