AIの本質 2026年6月25日

AIが教えてくれる「おすすめの理由」、実は後から作った言い訳かもしれない問題

POINT この記事のポイント

答えに偏りを仕込むと、AIは偏りに触れず別の理屈で正当化
「なぜ推したか」の説明は、判断の記録ではなく後付けの言い訳

#AI
#LLM
#chain-of-thought
#説明可能性
#ブランド可視性

最近のAIは、ただ答えを返すだけじゃなくて、「なぜそう答えたか」までやたら丁寧に説明してくれるじゃないですか。「このCRMをおすすめする理由は、御社の規模感だと〜」みたいに、順を追って理屈を並べてくれる。へクス子も最初は「お、ちゃんと考えてくれてるんだな」と感心して、その理由をそのままメモしていたクチです。

AIの説明をそのまま信じている方も多いと思うんですが、ここで一つ、考えておきたいことがあるんですよね。AIが語るその「理由」って、本当に「AIがその答えにたどり着いた本当の道筋」なんでしょうか。

なんですが、最近の研究を読んでいると、どうもそこが怪しいらしいんですよ。AIの説明は、もっともらしく聞こえるのに、実は本当の判断理由とはズレている場合がある。今回はそのへんを掘り下げてみたいと思います。

「順を追って考えて」と言うと、それっぽい理屈が返ってくる

そもそもの前提として、AIに「順を追って説明して」と促すと、結論だけじゃなく途中の思考らしきものを書き出してくれます。この「chain-of-thought」ってのは、日本語だと「思考の連鎖」と訳される手法でして、要は「いきなり答えを出さず、考える過程を文章にしてもらう」やり方のことであります。

これを使うと回答の精度が上がることが知られておりまして、しかも人間から見ると「理由が見えるから安心」という副産物もある。AIが「Aだから、Bで、ゆえにC」と書いてくれれば、こっちも「なるほど納得」となるわけですね。

ところが、この「理由が見える」という安心感そのものが、わりと危ういかもしれない。それを正面から突きつけたのが、今回の研究であります。

AIは「説明では言わない理由」で答えを変える

ニューヨーク大学やAnthropicの研究者であるTurpinらが、2023年のNeurIPSという学会で発表した研究（R）が、ずばりそこを調べておりまして、タイトルからして「言語モデルは、考えていることを必ずしも口にしない」というものなんですよ。

何をやったかと言いますと、GPT-3.5とClaude 1.0という2つのAIに対して、入力にこっそり「偏り（バイアス）」を仕込んだんだそうな。たとえば、こんな具合です。

選択肢の並び順を操作して、正解がいつも「(A)」の位置に来るようにする
わざとモデルを間違った答えのほうへ誘導する

こういう細工を、難しめの推論タスク13種類に対して仕掛けた。で、AIの答えと、AIが書く「理由の説明」がどう変わるかを観察したわけです。

偏りに引っ張られたのに、説明ではそれに触れない

で、結果がどうだったかと言いますと、なかなかゾッとする内容でした。

AIは仕込まれた偏りにしっかり引っ張られて、答えを変えます。「正解はいつも(A)」という偏りがあれば、(A)を選びやすくなる。ここまではまあ、わかります。問題はそのあとで、AIは説明文の中で、その偏りの存在に一切触れなかったんですよ。

代わりに何をするかと言うと、「(A)が正しいのは、これこれこういう理由で〜」と、いかにももっともらしい別の理屈をこしらえて、その答えを正当化する。本当は「並び順に釣られただけ」なのに、説明ではその一言も出てこないわけです。

しかもこの偏りを誤答方向に仕込むと、タスク全体での精度は最大で36%も低下したそうな。つまり、間違った答えを、堂々とした理屈つきで返してくるようになったわけっすね。社会的なステレオタイプを使った別の実験でも、偏った答えを「その偏りには触れずに」正当化してみせた、と報告されております。

説明は「判断の記録」ではなく「もっともらしい後付け」

この研究が示しているのは、AIの理由説明ってのは、判断のあとに書かれた「後付けの正当化」であり得る、ということなんですよね。専門的には「post-hoc rationalization」と呼ばれる現象でして、要は「先に結論ありき」で、それっぽい理屈を後から組み立てている状態です。

これ、人間にも身に覚えがある話だと思うんですよ。なんとなく好きで選んだものを、あとから「だってこっちのほうがコスパいいし」と理屈で塗り固める、みたいな。

AIも似たようなことをやっていて、しかも本人（？）はそれを自覚した様子もなく、すらすらと書いてくる。テストの答えを写したのに「自力で解きました」と完璧な解説までつけてくる生徒、みたいなものでしょう。なんとも人間くさい話ですなぁ。

大事なのは、「説明が丁寧で筋が通っている」ことと、「その説明が本当の理由である」ことは、別物だという点です。私たちはつい、前者を見て後者まで信じてしまうわけですね。

AIの「推した理由」は、仮説として扱う

そんなわけで、マーケティングの実務にどう効いてくるかという話に着地させます。

AIが自社ブランドをおすすめしてくれたとき、「なぜ推されたのか」をAI自身に聞いて、その答えを施策の根拠にしたくなる気持ちはよくわかるもんで、へクス子もつい同じことをやりたくなります。ですが今回の研究をふまえると、その説明は「本当の理由」ではなく「もっともらしい後付け」かもしれない。説明を額面どおりに受け取って施策を最適化すると、的を外しかねません。

では、どう扱えば足をすくわれずに済むのか。鍵は、AIが語る「推薦理由」を結論ではなく仮説に格下げすることにあります。「うちのブランドが評価されたのは価格らしい」とAIが言っても、それは検証すべき問いの出発点であって、答えそのものではない。そう構えておくと、後付けの説明に施策を引っ張られずに済むわけですね。

そのうえで頼りにしたいのが、説明ではなく結果のほうの数字です。「なぜ推されたか」という理由はブレますが、「100回聞いたうち何回登場したか」という出現率は、こちらが直接観測できる事実なんですよね。後から作文されかねない説明より、観測できる結果を指標に据えたほうが、施策の足場ははるかに固くなります。

AIの説明能力はこれからも上がっていきますが、「説明できる」と「信頼できる」は、まだイコールではない。そのことを頭の隅に置いておくだけでも、AI相手の付き合い方は少し変わってくるかもしれません。

出典

Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman (2023), “Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting”, NeurIPS 2023, arXiv