OpenAIが開発した音声認識AI「Whisper」は、その精度の高さから注目を集めています。
ただ、「Whisper」と聞いて以下のように思う方もいらっしゃるのではないでしょうか。
- 「Whisperって聞いたことあるけど、よく知らない…」
- 「Whisperをどう使えば、文字起こしできるの?」
本記事では、Whisperの概要、機能、使い方、注意点、よくある質問などを詳しく解説するので、ぜひ最後までご覧ください。
OpenAIが開発した「Whisper」でできること
「Whisper」とは、OpenAIが2022年9月にリリースした最先端の音声認識AIであり、音声認識や音声翻訳などが可能です。
Whisperは英語をはじめ、日本語を含む多言語の音声を高精度に文字起こしするだけでなく、翻訳機能も搭載し、音声処理の幅広いニーズに対応します。
具体的には、以下の特徴があります。
- 高精度な文字起こし:ノイズが多い環境や早口言葉でも、高い精度で音声を文字に変換します。
- 多言語対応:英語に加え、日本語、中国語、フランス語など、様々な言語に対応しています。
- 翻訳機能:音声を認識した上で、別の言語に翻訳することができます。
- オープンソース:ソースコードが公開されているため、研究開発やカスタマイズに活用できます。
Whisperの文字起こしの精度について
Whisperの文字起こしの精度は、モデルサイズによって異なります。
モデルサイズが大きくなるほど、精度は高くなりますが、処理時間も長くなります。
具体的には以下のモデルがあります。
- tiny:最も小さいモデルで、処理は速いが精度は最も低い。漢字、カタカナ、平仮名の書き起こしが不十分な場合が多い。
- base:tinyよりも精度が高く、処理速度も比較的速い。漢字・カタカナ・平仮名の書き分けが上手くいっているが、誤字が存在する。
- small:標準のモデルで、精度と処理速度のバランスが取れている。カタカナの書き起こしが不完全な場合がある。
- medium: 高精度な文字起こしが求められる場合におすすめのモデルだが、処理速度が遅くなる。ほとんどの音を正確に文字起こしでき、句読点なども適切である。
- large:最も精度が高いモデルだが、処理速度も非常に遅くなる。ほぼ全ての音を正確な日本語として書き起こすことができる。
用途に応じて適切なモデルサイズを選択しましょう!
Whisperの料金体系について
WhisperはGoogle ColaboratoryやHugging Faceを使えば、無料で使えます。
API経由で利用すると有料になりますが、料金は1分ごとに0.006ドル(約1円)であり、比較的安価です。
【簡単】Whisperの使い方【Google Colaboratory】
Whisperは、Google Colaboratoryと呼ばれるクラウド環境を用いて、利用することができます。
初心者の方でも簡単に実行できるので、是非参考にしてください。
まずは、Google Colaboratoryを開き、「ノートブックを新規作成」を選択。
続いて、編集タブの「ノートブックの設定」をクリック。
「ハードウェア アクセレータ」を「T4GPU」に設定して、右下の保存をクリックすれば環境設定は完了。
以下のWhisperのインストールコードを入力し、左側の実行ボタンをクリック。
!pip install git+https://github.com/openai/whisper.git
続いて、以下のコードを入力し、左側の実行ボタンをクリック。
import whisper
次に、画面左側の①のファイルマークから②のアップロードボタンをクリックし、文字起こしをしたい音声データをアップロードする。(今回は、“364262565279941.mp3”のファイル)
最後に、以下のコードを入力し、左側の実行ボタンをクリック。
※今回、モデル名は“base”、ファイル名は“364262565279941.mp3”で実行。
model = whisper.load_model(“モデル名”)
result = model.transcribe(“ファイル名”)
print(result[“text”])
入力した音声ファイル:関東・甲信地方の天気は、日中は各地で晴れる見込みです。午後は山の一部でにわか雨がありますが、平地で雨が降ることはなさそうです。東京は32度、さいたまは33度と今年一番の暑さ、横浜は30度と今年初めての真夏日になりそうです。お出かけの際は熱中症対策を忘れずに!
出力された文字起こし:監督、更新地方の天気は、日中は各地で晴れる見込みです。午後は山の一部でに若雨がありますが、平地で雨が降ることはなさそうです。東京は32度、最多まは33度と今年1番の厚さ、横浜は30度と今年初めての真夏日々になりそうです。おでかけの際は熱中小対策を忘れずに。
所々、漢字の変換ミスが見られますが、大部分は問題なく文字起こしできていることが確認できました。
より高精度のモデルを使用すると誤字も少なくなるかと思います。
【応用】Whisperをローカル環境で使う方法
WhisperはGoogle Colaboratory以外にも、ローカルインストールして、Pythonで利用することもできます。
AIモデルをローカル環境で使用するメリットは、外部に対する秘匿性、機密性を最大限担保できる点です。
※前提として、PythonとGitはインストールされている必要があります。
Powershellを管理者権限で起動し、「Set-ExecutionPolicy RemoteSigned」と入力して実行。
その後、「Y」と入力して実行し、powershellを閉じます。
任意の場所に「Whisper」というフォルダを作成し、下図のようにパスを通した形でPowershellを起動(作成したフォルダ内でタスクバーにpowershellと入力して実行する)し、「python -m venv venv」と入力して実行。
その後、「./venv/scripts/activate」と入力して実行し、作成した仮想環境をアクティベートします。
次に、Whisper本体のライブラリをインストールします。
「pip install git+https://github.com/openai/whisper.git」と入力して実行すれば、インストールが開始します。
また、ffmpegライブラリのインストールを行います。
こちらのサイト(https://github.com/BtbN/FFmpeg-Builds/releases)から、「ffmpeg-master-latest-win64-gpl.zip」ファイルをダウンロードして、解凍し、任意のフォルダに設置。
環境変数設定を開き(検索窓から環境変数を検索)、ユーザー環境変数内の「Path」の編集をクリックします。
先ほど設置したffmpegフォルダのパスを入力してOKをクリックします。
「Whipser」フォルダにパスを通した形でpowershellを起動し、「./venv/scripts/activate」と入力して実行することで、仮想環境をアクティベートします。
最後に「whisper –model (モデル名) –language Japanese (対象ファイルのパス)」と入力して実行すれば、音声ファイルの書き起こしが実行されます。
※モデル名と対象ファイルのパスは具体的な名称を記載してください。
Whisperを使って文字起こしをする際の5つの注意点
Whisperは高精度な文字起こし機能を備えていますが、完璧なツールではありません。以下の点に注意して利用する必要があります。
1. 音質の影響
Whisperは音声認識AIであるため、音質がクリアなほど、精度の高い文字起こしが可能になります。ノイズが多い環境や、早口言葉など、音質が悪い場合は、精度が低下する可能性があります。
2. 話者数の影響
Whisperは、基本的に1人の話者の音声を認識するように設計されています。複数人の会話の場合は、誰が話しているのかが区別できない場合があり、誤認識が発生する可能性があります。
3. 専門用語の影響
Whisperは、一般的な単語やフレーズであれば、高精度に認識することができます。しかし、専門用語や業界用語など、あまり使われていない単語の場合は、誤認識される可能性があります。
4. 長時間の音声
Whisperは、長時間の音声ファイルを処理する場合、処理時間が長くなることがあります。また、長時間の音声の場合は、途中で認識が途切れる可能性もあります。
5. セキュリティ
Whisperは、OpenAIが提供するクラウドサービスです。そのため、音声ファイルをアップロードする際には、セキュリティ対策に注意する必要があります。
Whisperに関するよくある質問
最後にWhisperに関するよくある質問とその回答についてピックアップしてご紹介していきます。
Q: Whisperのアプリはある?
Whisperの公式アプリはリリースされていません。
Google ColaboratoryやHugging Faceを使うとブラウザ上で利用することができます。
Q: Whisperを使った文字起こしは無料?
Google ColaboratoryやHugging faceを使えば、無料で使えます。
API経由で利用すると有料になりますが、料金は1分ごとに0.006ドル(約1円)であり、比較的安価です。
Q: Whisperの文字起こしの上限はある?
Whisperが文字起こしできるファイルサイズは25MBまでとなっています。
ファイルサイズが25MBよりも大きくなってしまう場合は、ファイルを分割するなどの対策が必要です。
Q: Whisperの日本語精度は高い?
日本語の文字起こしの精度は「単語誤り率」の順位で6位の「5.3%」となっており、他の言語に比べて高い精度で文字起こしができます。
まとめ
それでは本記事をまとめます。
- 「Whisper」はOpenAIがリリースした最先端の音声認識AIであり、高精度な文字起こしが可能。
- Whisperのモデルサイズが大きくなるほど、精度は高くなるが、処理時間も長くなる。
- WhisperはGoogle ColaboratoryやHugging Faceを使えば、無料で利用可能。
Whisperは、高精度な文字起こし機能と翻訳機能を備えた、革新的な音声認識AIです。
本記事によってWhisperを理解し、議事録や文字起こしに活用することで、皆様にとって少しでも役立つ情報となれば幸いです。