Whisper Desktop
WindowsでWhisperを手軽に利用するためのアプリです。
Whisper Desktop とは?†
WindowsでWhisperを手軽に使うためのアプリです。
音声ファイルから文字起こしするときに使います。
文字起こし†
「文字起こし」とは、音声データ(録音、動画など)を聴き取り、その内容をテキスト(文章)に変換する作業のことです。
Whisperモデルのダウンロード†
Whisper Desktop は 本体とモデルファイルを別管理 しているので、まずはモデルを用意しましょう。
「モデルファイル」とは、音声と文字の対応を学習済みのデータです。
1. どこから入手する?†
おすすめは Hugging Face にある GGML 形式の Whisper モデル をダウンロードする方法です。
ここに以下のファイルが並んでいます:
- `ggml-base.bin`
- `ggml-small.bin`
- `ggml-medium.bin`
- `ggml-large-v2.bin`
など。
2. どのモデルを選べばいい?†
- small … まずは軽量&精度そこそこ
- medium … RTX3060なら実用的
- large-v3 … 最高精度だけど重い(メモリ使用量も大きい)
👉 最初は ggml-small.bin をおすすめします。
3. 使い方(配置)†
1. Hugging Face から `ggml-small.bin` をダウンロード
2. WhisperDesktop.exe と同じフォルダに置く(例:`C:\WhisperDesktop\ggml-small.bin`)
3. Whisper Desktop 起動時に **Model Path** にそのファイルを指定
- 一度指定すると設定に保存され、次回以降は自動で読み込まれます
4. 代替:自分で変換する場合†
- OpenAI Python 版 Whisper で `.pt` モデルをダウンロード → `whisper.cpp` のスクリプトで `.bin` に変換
- ただし最初は Hugging Face から直接 `.bin` を落とした方が楽です
5. 注意点†
- RTX3060 を使うなら Model Implementation: GPU を選べばOK
- CUDA が入っていれば GPU モードで動きます
- モデルサイズに応じて VRAM 消費が増えるので、大きいモデルを試すときは注意
👉 Hugging Face のリンク先から `.bin` を落として指定すればすぐ動きます。
Whisper Desktopの使い方†
Whisper Desktop はオープンソースの GUI フロントエンドです。
1. ダウンロード†
- ページに行くと「Assets」に実行ファイルが置いてあります。
例:`Whisper-1.5.5-x64.zip` など
2. インストール手順†
1. 上記リンクから **最新の `Whisper-x.x.x-x64.zip`** をダウンロード
2. ZIP を任意のフォルダ(例:`C:\WhisperDesktop`)に解凍
3. 解凍した中の `Whisper.exe` をダブルクリックで起動
3. 初回設定†
- 起動するとシンプルなウィンドウが開きます。
- Device → 「CUDA」が選べるはずです。(NVIDIA RTX 4060 などが認識されていれば)
- CPU しか出ない場合は NVIDIA ドライバ と CUDAランタイム を最新にしてください。
- Model → `small` や `medium` を選択
- `small` … 軽くて速い(まずはこれでOK)
- `medium` … 精度アップ、RTX3060なら実用的
- `large` … 最高精度だが処理が重い
4. 使い方(文字起こし)†
1. 音声 or 動画ファイルをドラッグ&ドロップ
- `mp3`, `wav`, `mp4`, `mkv` などOK
2. Language → 「Spanish」を選択(スペイン語の音声を文字起こしする場合)
3. Task → 「Transcribe」を選択
- これで「スペイン語音声 → スペイン語テキスト」
- 日本語翻訳したいときは「Translate」を選べます。
4. [Start] ボタンを押す
5. 処理が終わるとウィンドウ下部に文字起こし結果が出ます。
- 保存形式:`.txt`, `.srt`, `.vtt`
5. ヒント†
- 長いファイルは GPU が有効ならかなり高速に処理できます。
- 出力ファイルをそのまま 字幕編集ソフト(Subtitle Editなど) で編集可能
- 翻訳は Whisper Desktop 内でもできますが、日本語品質を上げたいなら
- Transcribe でスペイン語テキストを出力
- その後 DeepL翻訳 や Google翻訳で日本語化