ChatGPTが自信満々に間違えるのは「当てずっぽうが得」だからって研究の話

POINT この記事のポイント

「知りません」を0点にする採点が、AIに当てずっぽうを仕込んでた
AIの自信満々な口調は、答えの正しさを保証してくれないという話

#AI
#ハルシネーション
#AIの仕組み
#ChatGPT
#信頼性

「ChatGPTって、知らないことは”知らない”って言ってくれないの？」

ChatGPTに自分の会社や担当ブランドのことを聞いてみたら、ありもしない受賞歴やうろ覚えの数字を、やけに堂々と答えられた。そんな経験、ありませんか。

へクス子も、試しに知り合いの会社名を入れてみたら、実在しない沿革をすらすら語られて、思わず二度見したことがあります。

なんですが、ここで不思議なのは、AIが間違えること自体より「知らないなら知らないと言ってくれればいいのに」と思う部分なんですよね。人間なら「ちょっと分からないです」で済むところを、AIはなぜか自信たっぷりに作り話をしてくる。

実はこの「なんで黙っていられないの？」という問いに、2025年9月、OpenAIの研究チームが正面から答えた論文を出してまして（R）。今回はそのへんを掘り下げてみたいと思います。

そもそも「ハルシネーション」って、AIの謎の故障なの？

まず言葉の整理からいきましょう。ってのは、AIが事実じゃないことを、それっぽく自信満々に答えてしまう現象のことなんですよ。日本語だと「幻覚」なんて訳されたりします。

これ、なんとなく「AIの中で時々起きる謎のバグ」みたいに思われがちなんですよね。賢いモデルになれば、そのうち自然に消えていくもの、というイメージを持っている方も多いんじゃないですかね。

ところが今回の論文の主張は、そこをばっさり否定するものでして。ハルシネーションは謎の故障なんかじゃなく、AIの訓練と評価のやり方が生む、ごく当たり前の結果なんだ、という話なんですよ。

論文では、著者の一人の誕生日をAIに尋ねた実験が紹介されています。3回聞いたら、3回とも別の（しかも全部はずれの）日付を、迷いなく答えてきたそうな。3回聞いて3回ともズレるって、もはや誕生日ガチャですよ。

カギは「テストで空欄を作らない受験生」だった

では、なんでAIは黙っていられないのか。論文がいちばん分かりやすく説明しているのが、テストを受ける学生のたとえなんですよね。

想像してみてください。答えの分からない問題に出くわしたとき、空欄で出せば確実に0点。でも、当てずっぽうでも書いておけば、まぐれで当たって点がもらえるかもしれない。だとしたら、とりあえず何か書いておくのが得ですよね。

AIもまったく同じインセンティブで動いている、というのが論文の見立てです。「分かりません」と正直に言うより、それっぽい答えをひねり出したほうが、結果的に得をするように仕込まれてしまっている。

つまりAIは、嘘をつきたくてついているわけじゃない。点を取りにいった結果として、当てずっぽうを口にしている、というわけですね。

なんで「当てずっぽうが得」になっちゃったのか

ここからが本題でして。AIがそういう「とりあえず答える」性格になる理由は、大きく2段階あります。

ひとつめは、そもそもの学習段階。AIは大量の文章を読んで言葉のつながりを覚えていくんですが、世の中には正しい文も間違った文も混ざっています。正解とハズレを完璧に見分ける術がない以上、ある程度の取りこぼしは統計的に避けられない、というわけです。ここはAIの宿命みたいなもので、ゼロにはできません。

そして、より効いてくるのがふたつめ。学習のあとにAIの実力を測る「テスト」の採点方法なんですよ。

AIの賢さは、ってのを使って測られます。要するにAI業界共通の模試みたいなもので、その点数でモデルの優劣がランキングされるわけですね。

問題は、その採点の多くが「正解なら1点、不正解は0点」という、まる・ばつ方式だということ。この方式だと、正直に「分かりません」と答えても、堂々と間違えても、どちらも同じ0点なんですよ。

「正直なAI」がランキングで負ける構造

で、まる・ばつ方式のなにがマズいのか。

「分かりません」が0点なら、AIにとっては当てずっぽうで答えにいったほうが、まぐれ当たりのぶんだけ得になります。逆に、正直に不確実性を示すモデルは、当てにいかないぶん点を取りこぼして、ランキングで下に沈んでしまう。

これ、テスト前に「分からない問題も全部埋めなさい」と指導される受験生と、同じことが起きているわけです。正直さが報われず、強気の当てずっぽうが評価される。そういう土俵で各モデルが競い合ってきたわけですね。

だから論文は、解決策として「新しい幻覚テストを足す」のではなく、既存のメジャーな模試の採点基準そのものを変えるべきだ、と提案しています。自信を持った間違いは重く減点し、適切な「分かりません」にはちゃんと部分点を与える。そうやって、正直さが損にならない採点に直そう、という話なんですよ。

ここがこの研究のいちばん大事なところでして。ハルシネーションは「モデルがもっと賢くなれば勝手に消える」ものではない。評価のインセンティブが当てずっぽうを褒めているかぎり、賢くなっても残り続ける、という構造的な指摘なんですよね。

AIの「自信の強さ」を、正しさの証拠と読まない

では、この話がマーケターや意思決定者にとって、どんな意味を持つのか。

いちばんの持ち帰りは、AIの口調の自信たっぷりさと、その答えの正しさには、なんの関係もないということです。AIは「分かりません」と言うのが構造的に苦手で、知らないことほど、むしろ滑らかに作り話をしてくる。流暢で言い切る回答ほど信用したくなりますが、その流暢さは正確さの証拠にはならないわけですね。

しかも、この性質は「次のもっと賢いモデルが出れば直る」と期待して待てるものでもありません。少なくとも採点の土俵が変わるまでは、AIは当てずっぽうを口にし続けるでしょう。だから「最新モデルだから大丈夫だろう」で済ませず、自社やブランドについてAIが語る内容は、一度は人の目で裏取りする前提でいるのが安全です。

そのうえで効いてくるのが、一度きりの確認で満足しないという姿勢なわけです。AIの答えはその時々でブレますし、モデルの更新でガラッと変わることもある。自社についてAIが何を、どれくらい正しく語っているかは、思い込みで決めつけず、定点で見ておく。それが、AIの強気な語り口に振り回されないための、地味だけれど効いてくる備えになりますよ。