Whisperは、音声認識と文字起こしのための機械学習モデルであり、OpenAIによって開発され、2022年9月にオープンソースソフトウェアとして初めて公開された。
英語を含む複数の言語で音声を文字起こしできる他、英語以外の複数の言語を英語に翻訳することもできる。
OpenAIは、開発において多様な訓練データを使用したことで、従来の手法と比較して、アクセント、背景雑音、専門用語の認識精度が向上したと主張している。Whisperは弱教師あり学習を用いた深層学習音響モデルであり、エンコーダ・デコーダトランスフォーマーアーキテクチャを使用して構築されている。
Whisper V2は2022年12月8日にリリースされた。
Whisper V3は2023年11月のOpenAI Dev Dayでリリースされた。
Whisper は、ウェブから収集された68万時間に及ぶ多言語・マルチタスクの教師ありデータに基づいて学習した自動音声認識(ASR)システムです。
このような大規模で多様なデータセットを使用することで、アクセントや背景の雑音、専門用語に対するロバスト性が向上することを示します。
さらに、多言語での文字起こしや多言語から英語への翻訳も可能です。
当社は、有用なアプリケーションの構築や、ロバストな音声処理のさらなる研究の基礎となるよう、モデルと推論コードをオープンソース化しています。
Whisper のアーキテクチャはシンプルなエンドツーエンドのアプローチで、エンコーダー・デコーダーの Transformer として実装されています。
入力音声は30秒のチャンクに分割され、ログメルスペクトログラムに変換された後、エンコーダーに渡されます。
デコーダーは、対応するテキストキャプションを予測するよう学習しており、言語の識別、フレーズレベルのタイムスタンプ、多言語の音声書き起こし、英語への音声翻訳などのタスクを実行するために単一のモデルに指示する特殊なトークンが混在しています。
…ちょっと何言ってるか分からない…
Whisperは「音を聞いて文字にするAI」です。
大まかにいうと、耳の役割(エンコーダー) と 口(手)の役割(デコーダー) を持っています。
1. 音を小分けにする(30秒ごと)
→ 長い音声を一気に処理するのは難しいので、30秒ごとに区切ります。
2. 音の特徴を取り出す(スペクトログラム化)
→ 人間の耳が「高さ(音程)、強さ(音量)、リズム」を感じ取るように、
コンピュータは音を「色のついたグラフ(ログメルスペクトログラム)」に変換します。
(音の波をそのまま扱うより、グラフにすると理解しやすい)
3. エンコーダー(耳の役割)
→ このグラフを読み取って、「この音はどんな特徴があるか?」をまとめて理解します。
4. デコーダー(口/手の役割)
→ エンコーダーが理解した情報をもとに、
「この部分は『こんにちは』だな」と予測して文字にします。
5. 追加の機能(特殊なトークン)
Whisperは文字にするだけじゃなくて、
なども、一つの仕組みでできるようになっています。
だからWhisperは「耳と手を持つAIの書記さん」みたいなものです。
👉 専門用語を使わずにまとめると:
Whisperは、
①音を短く区切ってグラフに変換し、
②それをAIが聞き取って文字にしたり、
③さらには翻訳してくれる仕組み です。
GitHub - Const-me/Whisper: High-performance GPGPU inference of OpenAI's Whisper automatic speech recognition (ASR) model
https://github.com/Const-me/Whisper
Online: 13