Whisper

Whisperとは?

whisper-architecture.png

Whisper のアーキテクチャはシンプルなエンドツーエンドのアプローチで、エンコーダー・デコーダーの Transformer として実装されています。
入力音声は30秒のチャンクに分割され、ログメルスペクトログラムに変換された後、エンコーダーに渡されます。
デコーダーは、対応するテキストキャプションを予測するよう学習しており、言語の識別、フレーズレベルのタイムスタンプ、多言語の音声書き起こし、英語への音声翻訳などのタスクを実行するために単一のモデルに指示する特殊なトークンが混在しています。

…ちょっと何言ってるか分からない…

🎤 Whisperの仕組み(ChatGPTによる解説)

Whisperは「音を聞いて文字にするAI」です。
大まかにいうと、耳の役割(エンコーダー)口(手)の役割(デコーダー) を持っています。

1. 音を小分けにする(30秒ごと)
→ 長い音声を一気に処理するのは難しいので、30秒ごとに区切ります。

2. 音の特徴を取り出す(スペクトログラム化)
→ 人間の耳が「高さ(音程)、強さ(音量)、リズム」を感じ取るように、
コンピュータは音を「色のついたグラフ(ログメルスペクトログラム)」に変換します。
(音の波をそのまま扱うより、グラフにすると理解しやすい)

3. エンコーダー(耳の役割)
→ このグラフを読み取って、「この音はどんな特徴があるか?」をまとめて理解します。

4. デコーダー(口/手の役割)
→ エンコーダーが理解した情報をもとに、
「この部分は『こんにちは』だな」と予測して文字にします。

5. 追加の機能(特殊なトークン)
Whisperは文字にするだけじゃなくて、

なども、一つの仕組みでできるようになっています。


イメージ例

whisper-infographic.jpg

だからWhisperは「耳と手を持つAIの書記さん」みたいなものです。


👉 専門用語を使わずにまとめると:
Whisperは、
①音を短く区切ってグラフに変換し、
②それをAIが聞き取って文字にしたり、
③さらには翻訳してくれる仕組み です。

ツール

関連

検索
全てのページから単語を検索します。 大文字小文字の区別はありません。




最新の10件
2025-09-11 2025-08-31 2025-07-22 2025-07-13 2025-04-24 2025-04-18 2025-04-17


人気の10件


ページの一覧



Counter: 91, today: 2, yesterday: 2

Online: 13


添付ファイル: filewhisper-infographic.jpg 39件 [詳細] filewhisper-architecture.png 43件 [詳細]

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2025-09-11 (木) 16:29:17