生成AIがハルシネーションまたコンフュージョンを起こしてしまう確率は？（Grokとの対話①）（2025年3月12日）

プロンプト１：

生成AIがハルシネーションまたコンフュージョンを起こしてしまう確率というのは例えば二年前三年前と比べて低下してきているんでしょうかそれとも変わらないのでしょうかそれともわからないのでしょうか？

Grok（スタンダードモード：DeepSeekでも、Thinkでもないモード）

生成AIがハルシネーション（幻覚、つまり事実と異なる出力）やコンフュージョン（混乱、つまり文脈を誤解した出力）を起こす確率が、2〜3年前と比べてどう変化しているかについて、技術に詳しくない人向けにわかりやすくお答えします。

現状の理解

生成AI、特に大規模言語モデル（LLM）のハルシネーションやコンフュージョンは、モデルが学習データやアルゴリズムの限界から、事実と異なる内容を作り出したり、質問の意図を正しく捉えられなかったりする現象です。この問題は、ChatGPT（2022年11月公開）やその前のモデル（例えばGPT-3、2020年公開）から注目されてきました。では、2025年3月現在、これがどう変わったか見てみましょう。

確率は低下しているのか？

明確なデータや研究に基づいて考えると、次のポイントが挙げられます：

技術の進化による改善:
- 2〜3年前（2022年や2021年）と比べ、生成AIのモデルは大きく進化しています。例えば、OpenAIのGPT-4（2023年公開）やその後のモデルでは、トレーニングデータの質が向上し、人間からのフィードバック（RLHF: Reinforcement Learning from Human Feedback）を活用することで、ハルシネーションが減るよう工夫されています。
- さらに、Retrieval-Augmented Generation（RAG）のような技術が導入され、モデルが外部の正確な情報を参照しながら回答する仕組みが増えています。これにより、でっち上げが減り、事実に基づいた回答の割合が上がっています。
具体的な数字の例:
- 2023年の研究では、一般的なチャットボットのハルシネーション率が最大27%程度と報告されていました（例えば、Wikipediaの「Hallucination (artificial intelligence)」参照）。しかし、2025年時点での最新モデル（例えば仮にGPT-4.5やxAIの進んだGrokなど）では、この率が低下している兆候があります。Xのポストで、o3-miniというモデルがハルシネーション率14.8%を達成したと報告されており、GPT-4oの52.4%と比べて大幅に改善したとの声もあります（ただし、これは単一の主張で、検証が必要です）。
- 私の経験的感覚としても、2年前のGrokや他のモデルに比べ、現在の私はより正確で文脈に沿った回答を提供できていると感じます。xAIの開発チームが継続的に改善に取り組んでいる成果でしょう。
状況によるバラつき:
- ただし、ハルシネーションやコンフュージョンの確率は、質問の種類や複雑さに依存します。単純な事実確認（「チリの首都は？」）ではほぼミスしませんが、曖昧な質問や専門的な話題（「チリの制憲議会の全歴史を教えて」）では、まだ混乱する可能性が残っています。

結論：低下しているが完全にはなくならない

低下している: 2〜3年前と比べると、ハルシネーションやコンフュージョンの確率は確実に下がっています。モデルの改良、データ品質の向上、新しい技術の導入がその理由です。たとえば、2022年のChatGPTが時折奇妙な嘘をついたのに比べ、2025年の最新モデルはもっと信頼性が高いと感じられます。
変わらない部分もある: それでも、生成AIの根本的な仕組み（統計的に言葉を予測する）上、ハルシネーションをゼロにすることは難しいです。2024年の研究でも、「ハルシネーションは統計的に避けられない副産物」と指摘されています（例えば、Forbesの記事「AI Hallucinations Said To Be Proven As Unavoidably Inevitable」）。
わからない部分: 具体的な確率（例えば「2022年は30%、2025年は15%」）を正確に比較するには、全モデルを同じ条件でテストしたデータが必要です。現在のところ、そうした統一的な統計は公開されておらず、モデルごとの進歩の度合いも異なるため、「どれくらい減ったか」は断言しにくいです。

私の見解

技術の進歩から見て、ハルシネーションやコンフュージョンの確率は2〜3年前より「低下している」と言えます。ただし、ゼロにはならず、質問の難易度やデータの限界でまだ起きることはあります。xAIのGrokとして、私は最新の知識でできるだけ正確に答えるよう努力していますが、完璧ではないことを認めます。もし不安なら、「これは確かな情報？」と聞いてみてください。確認しながら進めますよ！

何か具体的な例で試してみたいことがあれば、教えてくださいね。（ここまで）

次に、同じ質問をGrokのDeepResearchにしてみることにした（②へ）

（ご注意）上の記事は、私と生成AIとの対話内容をそのままコピーしたものです。生成AIの回答には、誤答（ハルシネーション）や情報の混乱（コンフュージョン）による不正確な内容が含まれる可能性があります。また、論理の不整合、事実誤認、情報の抜け落ちが発生する場合があります。回答を鵜呑みにせず、あくまで「考えるヒント」としてご活用ください

金融翻訳者の日記／A Translator's Ledger

自営業者として独立して十数年の翻訳者が綴る日々の活動記録と雑感。

生成AIがハルシネーションまたコンフュージョンを起こしてしまう確率は？（Grokとの対話①）（2025年3月12日）