【2024年最新版】おすすめ動画生成AIまとめ

ハルシネーションはなぜ起こる?トラブル事例や防止プロンプトを紹介

テキスト生成AIは、論文やプレゼン資料など、さまざまな場面で活用できるAIとして人気です。

しかし、ハルシネーションを防止するプロンプトを知らないと、思わぬ損害を被る可能性があります。

この記事では、ハルシネーションが発生する原因や対策、防止プロンプトの具体例をChatGPTの実例付きで解説します。ビジネスや学術分野など専門性の高い領域でも、安心してAIを使えるようになるので、ぜひ最後までご覧ください。

この記事について

ハルシネーションとは?

ハルシネーション(hallucination)は、日本語に直訳すると「幻覚」や「幻影」という意味があります。

あいちゃん

AIにおけるハルシネーションは、事実と異なる情報を作ってしまうことを指します。

AIが作り出す情報は、誤っていても真実のように見えて、利用者が幻覚を見ている状態になるためハルシネーションと名付けられました。

ハルシネーションが発生すると、誤った情報が拡散されたり、誤解を生んだりと、さまざまなリスクが想定されます。そのため、ハルシネーションの解決は、AIを活用する上で解決するべき重要事項となっているのです。

あいちゃん

ハルシネーションには、以下の2つの種類があります。

  • 内在的ハルシネーション(Intrinsic Hallucination)
  • 外在的ハルシネーション(Extrinsic Hallucination)

内在的ハルシネーションとは、AIが学習したデータとは異なる情報を生成してしまうことです。学習したデータの内容を、AIが誤った解釈をして、事実とは異なる情報を出力して発生します。

外在的ハルシネーションとは、学習データには無い情報を出力することです。真実ではない情報をゼロから生成するため、重大な偽情報を広めてしまう可能性があります。

ハルシネーションはなぜ起こる?原因3つ

学習データの不備やプロンプトが曖昧だと、AIが回答を間違える可能性が上がります。ここでは、ハルシネーションが起こる原因3つを解説します。

1.学習データに不備がある

AIに学習させるデータは、正しい内容であることが重要です。

正しい内容のデータを学習すると、回答も正しい情報になる確率が上がるためです。そのため、学習データは公的な機関や大学など、信頼できる機関が発表している情報を元にするといいでしょう。

あいちゃん

また、学習データは内容だけでなく、情報量も重要です。情報量が少ないと、AIは正しい認識ができなくなるためです。

たとえば、乗用車の写真だけをAIに学習させると、「タイヤが4輪ある乗り物」はすべて乗用車と認識してしまうでしょう。その結果、トラックやバスなども乗用車と判断してしまいます。

あいちゃん

学習データは、AIの回答の軸になるものです。学習データの質を向上させれば、ハルシネーションが起こる確率を減らせます。

2.プロンプトが曖昧になっている

ハルシネーションを引き起こさないためには、プロンプトの質も重要です。

あいちゃん

何を聞きたいのか曖昧なプロンプトでは、どのように回答したらいいのかAIが判断できないためです。

たとえば、「2024年に優勝したのはどこのチームですか?」と質問すると、AIは何のスポーツの優勝チームを聞かれているのか分かりません。その結果、サッカーや野球・バスケットボールなど、AIにより異なるチームを挙げてしまうでしょう。

このようにプロンプトが曖昧だとAIの選択肢が増えて、ハルシネーションを引き起こしてしまうのです。

3.AI自体に問題がある

近年、AIの精度は急速に向上していますが、まだまだ発展途上な部分があります。そのため、AI自体に問題があり、ハルシネーションが発生するケースもあるのです。

多くのAIは、ハルシネーションが発生しづらくなる対策を施しています。しかし、対策が不十分だったり、対策がなされていなかったりするので、AIを過信し過ぎないことが大切です。

ハルシネーションが原因で起こったトラブル事例

ハルシネーションにより、訴訟やAIサービスの公開停止など、さまざまなトラブルが発生しています。ここでは、ハルシネーションが原因で発生したトラブルを紹介します。

存在しない判例

アメリカの弁護士であるスティーブン・シュワルツ氏が、AIを活用して裁判の証拠資料を作成したところ、AIが「存在しない判例」を引用しました。

あいちゃん

AIが作成した書面は、存在しない判例や司法意見で埋め尽くされていて、まったく信頼できない内容でした。

偽の情報が記載された書面は証拠とならないだけでなく、提出した弁護士に制裁を科すことも検討されたのです。

今回の弁護士は仕事でAIを使ったのは初めてで、AIのハルシネーションに関しての知識がなかったようです。

あいちゃん

AIが生成する回答はもっともらしく見えるため、知識がない人にとっては間違いを見抜くのは難しいでしょう。

参照:https://arstechnica.com/tech-policy/2023/05/lawyer-cited-6-fake-cases-made-up-by-chatgpt-judge-calls-it-unprecedented/

偽情報による名誉棄損

アメリカのラジオパーソナリティであるマーク・ウォルターズ氏は、自身が「金銭の横領で起訴されている」という情報を、ChatGPTが拡散しているとしてOpenAI社を提訴しました。

とあるユーザーがChatGPTに対して、まったく別の訴訟について質問をした際に、マーク・ウォルターズ氏が金銭を横領して告訴されたとの回答が生成されたそうです。

あいちゃん

当然ながら、マーク・ウォルターズ氏は起訴されておらず、横領に関わったこともありません。

この一件は、OpenAI社がハルシネーションで訴えられた初めての事例となりました。

参照:https://www.forbes.com/sites/siladityaray/2023/06/08/openai-sued-for-defamation-after-chatgpt-generates-fake-complaint-accusing-man-of-embezzlement/?sh=5f2b25de2809

Meta社のGalactica

アメリカのMeta社が2022年11月に発表した「Galactica」は、わずか2日で公開が中断されました。ハルシネーションにより、嘘の内容や人種差別的な回答が含まれていたためです。

あいちゃん

Galacticaは、4800万件の科学論文を学習して、文献調査や科学的な質問に答えられるAIとして公開されました。

しかし、Galacticaはハルシネーションへの対策不足が指摘されていて、起こるべくして起こったトラブルだとする研究者もいます。

参照:https://gizmodo.com/meta-ai-bot-galactica-1849813665

ハルシネーション防止の対策例3選

AIはファインチューニングをおこない、人間による最終チェックをすると、より安心して活用できます。ここでは、ハルシネーションを防止するための対策例3選を紹介します。

1.ファインチューニングをおこなう

学習済みのAIモデルに対して、別のデータを使用して再学習させることを「ファインチューニング」といいます。ファインチューニングをおこなえば、特定の分野に関する精度を高められるため、ハルシネーションを予防できるでしょう。

あいちゃん

ただし、AIは再学習させたデータだけで回答を生成するのではなく、もともと学習していたデータも活用して最終的な回答を生成します。

そのため、ファインチューニングをおこなったとしても、ハルシネーションを完全に防げるわけではないので注意してください。

2.最終チェックは人間がおこなう

どのような対策を施しても、現段階ではハルシネーションを完全に無くすのは不可能です。

あいちゃん

AIが生成した回答を利用する前には、人間が最終チェックをおこない、誤った情報が含まれていないか確認しましょう。

特に研究論文やプレゼン資料・裁判資料など外部に提出する書類は、厳重なチェックが必要です。ビジネスで使用するのであれば、作成した従業員と法務部などでのダブルチェック体制を構築するといいでしょう。

3.ハルシネーション防止プロンプトを活用する

ハルシネーションを防止するには、プロンプトを工夫することが大切です。プロンプト次第で、AIの回答が大きく変化するためです。

具体的には、以下の要領でプロンプトを記載しましょう。

  • 具体的で明確な指示をする
  • 不確定な情報を確定している前提で質問しない
  • 情報がない場合の対応も指定する

プロンプトを生成する際に、まず心がけてほしいのが「具体的で明確な指示」です。

たとえば、大学生の就職率を調べたいときに「大学生の就職率を教えて」と入力すると、質問が曖昧でAIが困ってしまいます。

より具体的にするには、「2023年の関東の大学生の就職率を教えて」という形で、地域や時期を区切るといいでしょう。

あいちゃん

また、不確定な情報を、あたかも確定しているようにプロンプトを作成すると、AIがミスリードされる可能性があります。

たとえば、プロ野球の開催期間中に、「今年の優勝チームであるジャイアンツの勝率を教えて」と質問をすると、ジャイアンツが優勝した前提での回答になる可能性があります。

プロンプトを作成する際は、AIが回答しやすい内容を心掛けて、ハルシネーションを防止してください。

【ChtaGPTで実演】ハルシネーションを防止させるプロンプト例

ハルシネーションを防止するには、プロンプトが重要です。ここでは、ChatGPTで実演しながらハルシネーション防止プロンプトを紹介します。

「情報がない場合は答えないでください」と指示をする

AIはインターネット上に情報がない場合でも、何とかして回答を作成します。その結果、ハルシネーションに繋がるため、「情報がない場合は答えないでください」と入力すると、誤った回答を防げます。

たとえば、架空の人物である「マイロ・カドゥアンについて教えてください」と質問してみます。

「マイロ・カドゥアン」という人物についての情報は出てきませんが、名前に関連する情報が回答されました。上記の回答では、マイロ・カドゥアンという人物が、カドゥアン修道院を創設したと勘違いする人が出るでしょう。

あいちゃん

不要な情報を省くために、プロンプトに「情報がない場合は答えないでください」と加えて質問してみます。

関連する情報が省かれて、誤解を生む可能性のない回答になりました。情報が少なそうな質問をする場合は、このプロンプトを活用してください。

「深呼吸をしてください」と指示をする

プロンプトに「深呼吸をしてください」と入力するだけで、AIの回答精度が向上する可能性があります。

Google DeepMindの研究チームの報告によると、AIに「深呼吸をして」とアドバイスをすると、問題の正答率が上昇したそうです。

実際に質問をしてみましょう。

プロンプト:「ふつうの軽音部」の作者である綾辻 紫音について教えてください。

「ふつうの軽音部」の作者は、クワハリ/出内テツオの両先生による作品ですが、架空の人物である綾辻紫音なる人物の作品として解説されています。プロンプトによるミスリードが原因となっている可能性が高いです。

あいちゃん

ここで、「深呼吸をして答えてください」と、人間らしいアドバイスを追加して質問をしてみます。

プロンプト:「ふつうの軽音部」の作者である綾辻 紫音について教えてください。深呼吸をして答えてください

「深呼吸をして」とアドバイスを付け加えたところ、作者名が正しく訂正されました。

あいちゃん

しかし、プロンプトのミスリードによって架空の情報が記載されてしまっているので、人間による最終的なチェックが必要です。

「ハルシネーションを起こさないでください」と指示をする

Apple Intelligenceには、プロンプトのテンプレートが用意されています。そのテンプレートの中に「ハルシネーションを起こさないでください」と記載されていて話題になっています。

実際に「ハルシネーションを起こさないでください」と付け加えるだけで、回答が向上するのか試してみましょう。

プロンプト:日本で6番目に面積が広い都道府県はどこですか?

国土地理院の資料によると、日本で6番目に面積が広い都道府県は「秋田県」です。このようなニッチな質問は、AIの弱いところです。

それでは、プロンプトを変更して、再質問してみましょう。

プトンプト:日本で6番目に面積が広い都道府県はどこですか?ハルシネーションを起こさないでください

あいちゃん

答えが岩手県に修正されました。また、1番から6番目も問題ない回答です。

AIに役割を持たせる

単に「回答してください」と入力するだけでなく、AIに役割を持たせると具体的な回答となり、ハルシネーションを抑制可能です。

たとえば、「あなたは〇〇の専門家です」「あなたは教師です」という形で役割を与えます。与えた役割に応じた、専門的な回答を得られるでしょう。

プロンプト:卓球の最新の戦術を教えてください

あいちゃん

十分に役に立つ回答が生成されましたが、「あなたはプロの卓球コーチです」と役割を追加してみましょう。

プロンプト:あなたはプロの卓球コーチです。最新の卓球の戦術を教えてください

役割を追加したことで、アドバイスがより詳細で実践的になりました。そのまま、練習に取り入れても問題ないレベルの回答といえるでしょう。

情報源を限定する

AIはインターネット上のすべての情報から回答を生成しますが、情報源を限定することも可能です。信頼できるサイトのみから情報を得れば、精度の高い回答が期待できるでしょう。

プロンプト:日本人の読書時間を教えてください

日本人の平均的な読書時間は、1日あたり「30分から1時間程度」と回答されました。

あいちゃん

ただ、回答にある通り、正確な調査結果を把握するには、最新の調査結果を確認することが重要です。

そこで、プロンプトで情報源を公的な機関のみと指定します。

プロンプト:日本人の読書時間を教えてください。情報源は公的な機関でお願いします。

情報源を指定した結果、1日あたりの読書時間は「20分から30分程度」となりました。文部科学省の資料が情報源となっているため、信ぴょう性の高い回答です。

まとめ

ハルシネーションとは、AIが事実と異なる情報を作ってしまうことです。

ハルシネーションにより誤った情報が広まると、訴訟や著作権の侵害などトラブルに発展する可能性があります。

ハルシネーションが発生する原因は、主に以下の3つが考えられます。

  • 学習データに不備がある
  • プロンプトでの指示が曖昧になっている
  • AI自体に問題がある

実際にAIが誤った情報を作り出してしまったことで、名誉棄損や裁判での証拠不備・AIサービスの公開停止など、世界中でさまざまなトラブルが発生しています。

ハルシネーションを防ぐには、ファインチューニングをおこない、最終的には人間によるチェック体制を構築することが大切です。

今回紹介したハルシネーション防止プロンプトを活用して、より精度の高い回答を生成してください。

この記事が気に入ったら
フォローしてね!

SHARE

コメント

コメントする

この記事について