#author("2025-09-18T12:27:11+09:00;2025-09-11T16:45:57+09:00","default:tanopro","tanopro") #author("2025-09-18T12:35:59+09:00;2025-09-11T16:45:57+09:00","default:tanopro","tanopro") #html{{ <h1 style="color: red; background-color: #FFFFCC; padding: 20px;"> Whisper Desktop </h1> <div class="alert alert-warning" role="alert"> WindowsでWhisperを手軽に利用するためのアプリです。 </div> }} //---------------------------------------- #contents //---------------------------------------- //---------------------------------------- // 用語の定義 * Whisper Desktop とは? [#definition] Windowsで[[Whisper]]を手軽に使うためのアプリです。 音声ファイルから文字起こしするときに使います。 ** 文字起こし [#b157d580] 「文字起こし」とは、音声データ(録音、動画など)を聴き取り、その内容をテキスト(文章)に変換する作業のことです。 //---------------------------------------- * Whisperモデルのダウンロード [#z60060c1] Whisper Desktop は ''本体とモデルファイルを別管理'' しているので、まずはモデルを用意しましょう。 「モデルファイル」とは、音声と文字の対応を学習済みのデータです。 ** 1. どこから入手する? [#s22db3dd] おすすめは ''Hugging Face にある GGML 形式の Whisper モデル'' をダウンロードする方法です。 -作者(ggerganov 氏)が公開している公式変換済みモデルがあります: 👉 Hugging Face - ggml-whisper https://huggingface.co/ggerganov/whisper.cpp/tree/main ここに以下のファイルが並んでいます: - `ggml-base.bin` - `ggml-small.bin` - `ggml-medium.bin` - `ggml-large-v2.bin` など。 ** 2. どのモデルを選べばいい? [#zc3c51a3] - ''small'' … まずは軽量&精度そこそこ - ''medium'' … RTX3060なら実用的 - ''large-v3'' … 最高精度だけど重い(メモリ使用量も大きい) 👉 最初は ''ggml-small.bin'' をおすすめします。 ** 3. 使い方(配置) [#u19c094c] 1. Hugging Face から `ggml-small.bin` をダウンロード 2. WhisperDesktop.exe と同じフォルダに置く(例:`C:\WhisperDesktop\ggml-small.bin`) 3. Whisper Desktop 起動時に **Model Path** にそのファイルを指定 - 一度指定すると設定に保存され、次回以降は自動で読み込まれます ** 4. 代替:自分で変換する場合 [#z079a9f3] - OpenAI Python 版 Whisper で `.pt` モデルをダウンロード → `whisper.cpp` のスクリプトで `.bin` に変換 - ただし最初は Hugging Face から直接 `.bin` を落とした方が楽です ** 5. 注意点 [#g2ef4958] - RTX3060 を使うなら ''Model Implementation: GPU'' を選べばOK - CUDA が入っていれば GPU モードで動きます - モデルサイズに応じて VRAM 消費が増えるので、大きいモデルを試すときは注意 👉 Hugging Face のリンク先から `.bin` を落として指定すればすぐ動きます。 //---------------------------------------- * Whisper Desktopの使い方 [#se964525] Whisper Desktop はオープンソースの GUI フロントエンドです。 ** 1. ダウンロード [#hc892a0a] - 公式リポジトリ(Const-me 氏の GitHub): 👉 Whisper Desktop Releases https://github.com/Const-me/Whisper/releases - ページに行くと「Assets」に実行ファイルが置いてあります。 例:`Whisper-1.5.5-x64.zip` など ** 2. インストール手順 [#b6f59075] 1. 上記リンクから **最新の `Whisper-x.x.x-x64.zip`** をダウンロード 2. ZIP を任意のフォルダ(例:`C:\WhisperDesktop`)に解凍 - インストーラは不要のポータブルアプリです。 3. 解凍した中の `Whisper.exe` をダブルクリックで起動 ** 3. 初回設定 [#t11425ac] - 起動するとシンプルなウィンドウが開きます。 - ''Device'' → 「CUDA」が選べるはずです。(NVIDIA RTX 4060 などが認識されていれば) - CPU しか出ない場合は ''NVIDIA ドライバ'' と ''CUDAランタイム'' を最新にしてください。 - ''Model'' → `small` や `medium` を選択 - `small` … 軽くて速い(まずはこれでOK) - `medium` … 精度アップ、RTX3060なら実用的 - `large` … 最高精度だが処理が重い ** 4. 使い方(文字起こし) [#h566c4b4] 1. 音声 or 動画ファイルをドラッグ&ドロップ - `mp3`, `wav`, `mp4`, `mkv` などOK 2. ''Language'' → 「Spanish」を選択(スペイン語の音声を文字起こしする場合) 3. ''Task'' → 「Transcribe」を選択 - これで「スペイン語音声 → スペイン語テキスト」 - 日本語翻訳したいときは「Translate」を選べます。 4. [Start] ボタンを押す 5. 処理が終わるとウィンドウ下部に文字起こし結果が出ます。 - 保存形式:`.txt`, `.srt`, `.vtt` ** 5. ヒント [#r19f88a9] - 長いファイルは GPU が有効ならかなり高速に処理できます。 - 出力ファイルをそのまま ''字幕編集ソフト(Subtitle Editなど)'' で編集可能 - 翻訳は Whisper Desktop 内でもできますが、日本語品質を上げたいなら -- Transcribe でスペイン語テキストを出力 -- その後 DeepL翻訳 や Google翻訳で日本語化 //---------------------------------------- // *Amazon [#amazon] #html{{ }} //---------------------------------------- * 関連 [#relation] //---------------------------------------- -[[Whisper]]