【簡単】便利な文字起こしAI「Whisper」の使い方をわかりやすく解説！

2024年6月19日2025年2月23日

当ページは広告が含まれている場合があります

OpenAIが開発した音声認識AI「Whisper」は、その精度の高さから注目を集めています。

ただ、「Whisper」と聞いて以下のように思う方もいらっしゃるのではないでしょうか。

「Whisperって聞いたことあるけど、よく知らない…」

「Whisperをどう使えば、文字起こしできるの？」

本記事では、Whisperの概要、機能、使い方、注意点、よくある質問などを詳しく解説するので、ぜひ最後までご覧ください。

OpenAIが開発した「Whisper」でできること

「Whisper」とは、OpenAIが2022年9月にリリースした最先端の音声認識AIであり、音声認識や音声翻訳などが可能です。

Whisperは英語をはじめ、日本語を含む多言語の音声を高精度に文字起こしするだけでなく、翻訳機能も搭載し、音声処理の幅広いニーズに対応します。

具体的には、以下の特徴があります。

高精度な文字起こし：ノイズが多い環境や早口言葉でも、高い精度で音声を文字に変換します。
多言語対応：英語に加え、日本語、中国語、フランス語など、様々な言語に対応しています。

翻訳機能：音声を認識した上で、別の言語に翻訳することができます。
オープンソース：ソースコードが公開されているため、研究開発やカスタマイズに活用できます。

Whisperの文字起こしの精度について

Whisperの文字起こしの精度は、モデルサイズによって異なります。

ぼー

モデルサイズが大きくなるほど、精度は高くなりますが、処理時間も長くなります。

具体的には以下のモデルがあります。

tiny：最も小さいモデルで、処理は速いが精度は最も低い。漢字、カタカナ、平仮名の書き起こしが不十分な場合が多い。

base：tinyよりも精度が高く、処理速度も比較的速い。漢字・カタカナ・平仮名の書き分けが上手くいっているが、誤字が存在する。
small：標準のモデルで、精度と処理速度のバランスが取れている。カタカナの書き起こしが不完全な場合がある。
medium： 高精度な文字起こしが求められる場合におすすめのモデルだが、処理速度が遅くなる。ほとんどの音を正確に文字起こしでき、句読点なども適切である。

large：最も精度が高いモデルだが、処理速度も非常に遅くなる。ほぼ全ての音を正確な日本語として書き起こすことができる。

用途に応じて適切なモデルサイズを選択しましょう！

Whisperの料金体系について

WhisperはGoogle ColaboratoryやHugging Faceを使えば、無料で使えます。

ぼー

API経由で利用すると有料になりますが、料金は1分ごとに0.006ドル（約1円）であり、比較的安価です。

【簡単】Whisperの使い方【Google Colaboratory】

Whisperは、Google Colaboratoryと呼ばれるクラウド環境を用いて、利用することができます。

初心者の方でも簡単に実行できるので、是非参考にしてください。

STEP

Google Colaboratoryの環境設定

まずは、Google Colaboratoryを開き、「ノートブックを新規作成」を選択。

続いて、編集タブの「ノートブックの設定」をクリック。

「ハードウェアアクセレータ」を「T4GPU」に設定して、右下の保存をクリックすれば環境設定は完了。

STEP

Whisperによる文字起こしの実行

以下のWhisperのインストールコードを入力し、左側の実行ボタンをクリック。

!pip install git+https://github.com/openai/whisper.git

続いて、以下のコードを入力し、左側の実行ボタンをクリック。

import whisper

次に、画面左側の①のファイルマークから②のアップロードボタンをクリックし、文字起こしをしたい音声データをアップロードする。(今回は、“364262565279941.mp3”のファイル)

最後に、以下のコードを入力し、左側の実行ボタンをクリック。

※今回、モデル名は“base”、ファイル名は“364262565279941.mp3”で実行。

model = whisper.load_model(“モデル名”)
result = model.transcribe(“ファイル名”)
print(result[“text”])

入力した音声ファイル：関東・甲信地方の天気は、日中は各地で晴れる見込みです。午後は山の一部でにわか雨がありますが、平地で雨が降ることはなさそうです。東京は32度、さいたまは33度と今年一番の暑さ、横浜は30度と今年初めての真夏日になりそうです。お出かけの際は熱中症対策を忘れずに！

出力された文字起こし：監督、更新地方の天気は、日中は各地で晴れる見込みです。午後は山の一部でに若雨がありますが、平地で雨が降ることはなさそうです。東京は32度、最多まは33度と今年1番の厚さ、横浜は30度と今年初めての真夏日々になりそうです。おでかけの際は熱中小対策を忘れずに。

ぼー

所々、漢字の変換ミスが見られますが、大部分は問題なく文字起こしできていることが確認できました。

より高精度のモデルを使用すると誤字も少なくなるかと思います。

【応用】Whisperをローカル環境で使う方法

WhisperはGoogle Colaboratory以外にも、ローカルインストールして、Pythonで利用することもできます。

AIモデルをローカル環境で使用するメリットは、外部に対する秘匿性、機密性を最大限担保できる点です。

ぼー

※前提として、PythonとGitはインストールされている必要があります。

STEP

Windowsスクリプト環境の制限解除

Powershellを管理者権限で起動し、「Set-ExecutionPolicy RemoteSigned」と入力して実行。

その後、「Y」と入力して実行し、powershellを閉じます。

STEP

Whisperのインストール

任意の場所に「Whisper」というフォルダを作成し、下図のようにパスを通した形でPowershellを起動(作成したフォルダ内でタスクバーにpowershellと入力して実行する)し、「python -m venv venv」と入力して実行。

ぼー

その後、「./venv/scripts/activate」と入力して実行し、作成した仮想環境をアクティベートします。

次に、Whisper本体のライブラリをインストールします。
「pip install git+https://github.com/openai/whisper.git」と入力して実行すれば、インストールが開始します。

STEP

ffmpegライブラリのインストール

また、ffmpegライブラリのインストールを行います。

こちらのサイト(https://github.com/BtbN/FFmpeg-Builds/releases)から、「ffmpeg-master-latest-win64-gpl.zip」ファイルをダウンロードして、解凍し、任意のフォルダに設置。

環境変数設定を開き(検索窓から環境変数を検索)、ユーザー環境変数内の「Path」の編集をクリックします。

先ほど設置したffmpegフォルダのパスを入力してOKをクリックします。

STEP

Whisperの実行

「Whipser」フォルダにパスを通した形でpowershellを起動し、「./venv/scripts/activate」と入力して実行することで、仮想環境をアクティベートします。

最後に「whisper –model (モデル名) –language Japanese (対象ファイルのパス)」と入力して実行すれば、音声ファイルの書き起こしが実行されます。

ぼー

※モデル名と対象ファイルのパスは具体的な名称を記載してください。

Whisperを使って文字起こしをする際の注意点

Whisperは高精度な文字起こし機能を備えていますが、完璧なツールではありません。以下の点に注意して利用する必要があります。

1. 音質の影響

Whisperは音声認識AIであるため、音質がクリアなほど、精度の高い文字起こしが可能になります。ノイズが多い環境や、早口言葉など、音質が悪い場合は、精度が低下する可能性があります。

2. 話者数の影響

Whisperは、基本的に1人の話者の音声を認識するように設計されています。複数人の会話の場合は、誰が話しているのかが区別できない場合があり、誤認識が発生する可能性があります。

3. 専門用語の影響

Whisperは、一般的な単語やフレーズであれば、高精度に認識することができます。しかし、専門用語や業界用語など、あまり使われていない単語の場合は、誤認識される可能性があります。

4. 長時間の音声

Whisperは、長時間の音声ファイルを処理する場合、処理時間が長くなることがあります。また、長時間の音声の場合は、途中で認識が途切れる可能性もあります。

5. セキュリティ

Whisperは、OpenAIが提供するクラウドサービスです。そのため、音声ファイルをアップロードする際には、セキュリティ対策に注意する必要があります。

ぼー

会議の議事録や、講義のレポートなどをより簡単に作成したい方は、次章で紹介するおすすめの文字起こしツールを使ってみてください。

Whisper以外におすすめの文字起こしツール

ここでは、Whisper以外に、文字起こしに便利な機能が搭載されたツールを3つ紹介します。

	使いやすさ	精度	料金	無料トライアル	対応言語の多さ
Nottaおすすめ!	◎	◎	フリー：0円（120分/月）プレミアム：2,200円（1800分/月）ビジネス：4,180円（無制限/月）エンタープライズ：要相談	〇	〇
CLOVA Note	◎	〇	オープンベータ期間中は無料（300分/月）	◎	△
AI GIJIROKU	〇	◎	フリー：0円（議事録のチュートリアルと閲覧のみ）パーソナル：16,500円/年（100分/月）チーム：327,800円/年（1000分/月）ビジネス：2,200,000円/年（10,000分/月）	×	〇