開始行:
#html{{
<h1 style="color: red; background-color: #FFFFCC; padding...
Whisper
</h1>
<div class="alert alert-warning" role="alert">
Whisper(ウィスパー)は、音声を文字に変換するためのAIです...
ChatGPTを開発しているOpenAI社によって開発された音声認識モ...
</div>
}}
//----------------------------------------
#contents
//----------------------------------------
//----------------------------------------
// 用語の定義
* Whisperとは? [#definition]
- OpenAI Whisper - Google 検索
https://www.google.com/search?q=OpenAI+Whisper
- Whisper (音声認識システム) - Wikipedia
https://ja.wikipedia.org/wiki/Whisper_(%E9%9F%B3%E5%A3%B0...
>Whisperは、音声認識と文字起こしのための機械学習モデルで...
英語を含む複数の言語で音声を文字起こしできる他、英語以外...
OpenAIは、開発において多様な訓練データを使用したことで、...
>Whisperは弱教師あり学習を用いた深層学習音響モデルであり...
Whisper V2は2022年12月8日にリリースされた。
Whisper V3は2023年11月のOpenAI Dev Dayでリリースされた。
- Whisper が登場 | OpenAI
https://openai.com/ja-JP/index/whisper/
>Whisper は、ウェブから収集された68万時間に及ぶ多言語・マ...
このような大規模で多様なデータセットを使用することで、ア...
さらに、多言語での文字起こしや多言語から英語への翻訳も可...
当社は、有用なアプリケーションの構築や、ロバストな音声処...
#ref(./whisper-architecture.png,800x)
>Whisper のアーキテクチャはシンプルなエンドツーエンドのア...
入力音声は30秒のチャンクに分割され、ログメルスペクトログ...
デコーダーは、対応するテキストキャプションを予測するよう...
…ちょっと何言ってるか分からない…
** 🎤 Whisperの仕組み(ChatGPTによる解説) [#ned9fa67]
Whisperは「音を聞いて文字にするAI」です。
大まかにいうと、''耳の役割(エンコーダー)'' と ''口(手...
1. ''音を小分けにする(30秒ごと)''
→ 長い音声を一気に処理するのは難しいので、30秒ごとに区切...
2. ''音の特徴を取り出す(スペクトログラム化)''
→ 人間の耳が「高さ(音程)、強さ(音量)、リズム」を感じ...
コンピュータは音を「色のついたグラフ(ログメルスペクトロ...
(音の波をそのまま扱うより、グラフにすると理解しやすい)
3. ''エンコーダー(耳の役割)''
→ このグラフを読み取って、「この音はどんな特徴があるか?...
4. ''デコーダー(口/手の役割)''
→ エンコーダーが理解した情報をもとに、
「この部分は『こんにちは』だな」と予測して文字にします。
5. ''追加の機能(特殊なトークン)''
Whisperは文字にするだけじゃなくて、
- どの言語かを自動で判別
- いつ話されたか(タイムスタンプ)を推定
- 外国語を英語に翻訳
なども、一つの仕組みでできるようになっています。
----
** イメージ例 [#z0de8f0d]
#ref(./whisper-infographic.jpg,800x)
- ''エンコーダー'' = 耳で聞いて頭の中で「意味のあるかたま...
- ''デコーダー'' = 整理された内容を言葉にしてノートに書く。
だからWhisperは「耳と手を持つAIの書記さん」みたいなもので...
----
👉 専門用語を使わずにまとめると:
Whisperは、
①音を短く区切ってグラフに変換し、
②それをAIが聞き取って文字にしたり、
③さらには翻訳してくれる仕組み です。
//----------------------------------------
* ツール [#ib069c22]
-[[Whisper Desktop]] WindowsでWhisperを手軽に利用するた...
>GitHub - Const-me/Whisper: High-performance GPGPU infere...
https://github.com/Const-me/Whisper
//----------------------------------------
// *Amazon [#amazon]
#html{{
}}
//----------------------------------------
* 関連 [#relation]
//----------------------------------------
-[[AI]]
終了行:
#html{{
<h1 style="color: red; background-color: #FFFFCC; padding...
Whisper
</h1>
<div class="alert alert-warning" role="alert">
Whisper(ウィスパー)は、音声を文字に変換するためのAIです...
ChatGPTを開発しているOpenAI社によって開発された音声認識モ...
</div>
}}
//----------------------------------------
#contents
//----------------------------------------
//----------------------------------------
// 用語の定義
* Whisperとは? [#definition]
- OpenAI Whisper - Google 検索
https://www.google.com/search?q=OpenAI+Whisper
- Whisper (音声認識システム) - Wikipedia
https://ja.wikipedia.org/wiki/Whisper_(%E9%9F%B3%E5%A3%B0...
>Whisperは、音声認識と文字起こしのための機械学習モデルで...
英語を含む複数の言語で音声を文字起こしできる他、英語以外...
OpenAIは、開発において多様な訓練データを使用したことで、...
>Whisperは弱教師あり学習を用いた深層学習音響モデルであり...
Whisper V2は2022年12月8日にリリースされた。
Whisper V3は2023年11月のOpenAI Dev Dayでリリースされた。
- Whisper が登場 | OpenAI
https://openai.com/ja-JP/index/whisper/
>Whisper は、ウェブから収集された68万時間に及ぶ多言語・マ...
このような大規模で多様なデータセットを使用することで、ア...
さらに、多言語での文字起こしや多言語から英語への翻訳も可...
当社は、有用なアプリケーションの構築や、ロバストな音声処...
#ref(./whisper-architecture.png,800x)
>Whisper のアーキテクチャはシンプルなエンドツーエンドのア...
入力音声は30秒のチャンクに分割され、ログメルスペクトログ...
デコーダーは、対応するテキストキャプションを予測するよう...
…ちょっと何言ってるか分からない…
** 🎤 Whisperの仕組み(ChatGPTによる解説) [#ned9fa67]
Whisperは「音を聞いて文字にするAI」です。
大まかにいうと、''耳の役割(エンコーダー)'' と ''口(手...
1. ''音を小分けにする(30秒ごと)''
→ 長い音声を一気に処理するのは難しいので、30秒ごとに区切...
2. ''音の特徴を取り出す(スペクトログラム化)''
→ 人間の耳が「高さ(音程)、強さ(音量)、リズム」を感じ...
コンピュータは音を「色のついたグラフ(ログメルスペクトロ...
(音の波をそのまま扱うより、グラフにすると理解しやすい)
3. ''エンコーダー(耳の役割)''
→ このグラフを読み取って、「この音はどんな特徴があるか?...
4. ''デコーダー(口/手の役割)''
→ エンコーダーが理解した情報をもとに、
「この部分は『こんにちは』だな」と予測して文字にします。
5. ''追加の機能(特殊なトークン)''
Whisperは文字にするだけじゃなくて、
- どの言語かを自動で判別
- いつ話されたか(タイムスタンプ)を推定
- 外国語を英語に翻訳
なども、一つの仕組みでできるようになっています。
----
** イメージ例 [#z0de8f0d]
#ref(./whisper-infographic.jpg,800x)
- ''エンコーダー'' = 耳で聞いて頭の中で「意味のあるかたま...
- ''デコーダー'' = 整理された内容を言葉にしてノートに書く。
だからWhisperは「耳と手を持つAIの書記さん」みたいなもので...
----
👉 専門用語を使わずにまとめると:
Whisperは、
①音を短く区切ってグラフに変換し、
②それをAIが聞き取って文字にしたり、
③さらには翻訳してくれる仕組み です。
//----------------------------------------
* ツール [#ib069c22]
-[[Whisper Desktop]] WindowsでWhisperを手軽に利用するた...
>GitHub - Const-me/Whisper: High-performance GPGPU infere...
https://github.com/Const-me/Whisper
//----------------------------------------
// *Amazon [#amazon]
#html{{
}}
//----------------------------------------
* 関連 [#relation]
//----------------------------------------
-[[AI]]
ページ名: