#author("2025-09-18T12:27:11+09:00;2025-09-11T16:45:57+09:00","default:tanopro","tanopro")
#author("2025-09-18T12:35:59+09:00;2025-09-11T16:45:57+09:00","default:tanopro","tanopro")
#html{{
<h1 style="color: red; background-color: #FFFFCC; padding: 20px;">
Whisper Desktop
</h1>

<div class="alert alert-warning" role="alert">
WindowsでWhisperを手軽に利用するためのアプリです。
</div>
}}

//----------------------------------------
#contents
//----------------------------------------

//----------------------------------------
// 用語の定義
* Whisper Desktop とは? [#definition]

Windowsで[[Whisper]]を手軽に使うためのアプリです。
音声ファイルから文字起こしするときに使います。

** 文字起こし [#b157d580]
「文字起こし」とは、音声データ(録音、動画など)を聴き取り、その内容をテキスト(文章)に変換する作業のことです。 

//----------------------------------------
* Whisperモデルのダウンロード [#z60060c1]

Whisper Desktop は ''本体とモデルファイルを別管理'' しているので、まずはモデルを用意しましょう。
「モデルファイル」とは、音声と文字の対応を学習済みのデータです。

** 1. どこから入手する? [#s22db3dd]

おすすめは ''Hugging Face にある GGML 形式の Whisper モデル'' をダウンロードする方法です。

-作者(ggerganov 氏)が公開している公式変換済みモデルがあります:
👉 Hugging Face - ggml-whisper
https://huggingface.co/ggerganov/whisper.cpp/tree/main

ここに以下のファイルが並んでいます:

- `ggml-base.bin`
- `ggml-small.bin`
- `ggml-medium.bin`
- `ggml-large-v2.bin`
など。

** 2. どのモデルを選べばいい? [#zc3c51a3]

- ''small'' … まずは軽量&精度そこそこ
- ''medium'' … RTX3060なら実用的
- ''large-v3'' … 最高精度だけど重い(メモリ使用量も大きい)

👉 最初は ''ggml-small.bin'' をおすすめします。

** 3. 使い方(配置) [#u19c094c]

1. Hugging Face から `ggml-small.bin` をダウンロード
2. WhisperDesktop.exe と同じフォルダに置く(例:`C:\WhisperDesktop\ggml-small.bin`)
3. Whisper Desktop 起動時に **Model Path** にそのファイルを指定

- 一度指定すると設定に保存され、次回以降は自動で読み込まれます

** 4. 代替:自分で変換する場合 [#z079a9f3]

- OpenAI Python 版 Whisper で `.pt` モデルをダウンロード → `whisper.cpp` のスクリプトで `.bin` に変換
- ただし最初は Hugging Face から直接 `.bin` を落とした方が楽です

** 5. 注意点 [#g2ef4958]

- RTX3060 を使うなら ''Model Implementation: GPU'' を選べばOK
- CUDA が入っていれば GPU モードで動きます
- モデルサイズに応じて VRAM 消費が増えるので、大きいモデルを試すときは注意

👉 Hugging Face のリンク先から `.bin` を落として指定すればすぐ動きます。


//----------------------------------------
* Whisper Desktopの使い方 [#se964525]

Whisper Desktop はオープンソースの GUI フロントエンドです。

** 1. ダウンロード [#hc892a0a]

- 公式リポジトリ(Const-me 氏の GitHub):
👉 Whisper Desktop Releases
https://github.com/Const-me/Whisper/releases

- ページに行くと「Assets」に実行ファイルが置いてあります。
例:`Whisper-1.5.5-x64.zip` など

** 2. インストール手順 [#b6f59075]

1. 上記リンクから **最新の `Whisper-x.x.x-x64.zip`** をダウンロード

2. ZIP を任意のフォルダ(例:`C:\WhisperDesktop`)に解凍
- インストーラは不要のポータブルアプリです。

3. 解凍した中の `Whisper.exe` をダブルクリックで起動

** 3. 初回設定 [#t11425ac]
- 起動するとシンプルなウィンドウが開きます。
- ''Device'' → 「CUDA」が選べるはずです。(NVIDIA RTX 4060 などが認識されていれば)

- CPU しか出ない場合は ''NVIDIA ドライバ'' と ''CUDAランタイム'' を最新にしてください。
- ''Model'' → `small` や `medium` を選択

- `small` … 軽くて速い(まずはこれでOK)
- `medium` … 精度アップ、RTX3060なら実用的
- `large` … 最高精度だが処理が重い

** 4. 使い方(文字起こし) [#h566c4b4]

1. 音声 or 動画ファイルをドラッグ&ドロップ
- `mp3`, `wav`, `mp4`, `mkv` などOK

2. ''Language'' → 「Spanish」を選択(スペイン語の音声を文字起こしする場合)

3. ''Task'' → 「Transcribe」を選択

- これで「スペイン語音声 → スペイン語テキスト」
- 日本語翻訳したいときは「Translate」を選べます。

4. [Start] ボタンを押す

5. 処理が終わるとウィンドウ下部に文字起こし結果が出ます。
- 保存形式:`.txt`, `.srt`, `.vtt`

** 5. ヒント [#r19f88a9]
- 長いファイルは GPU が有効ならかなり高速に処理できます。
- 出力ファイルをそのまま ''字幕編集ソフト(Subtitle Editなど)'' で編集可能
- 翻訳は Whisper Desktop 内でもできますが、日本語品質を上げたいなら
-- Transcribe でスペイン語テキストを出力
-- その後 DeepL翻訳 や Google翻訳で日本語化

//----------------------------------------
// *Amazon [#amazon]
#html{{

}}


//----------------------------------------
* 関連 [#relation]
//----------------------------------------

-[[Whisper]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS