AIが毎回違う答えを返すのは「欠陥」じゃなく測り方のせい？という研究の話

POINT この記事のポイント

「AIって、聞くたびに違うこと言うじゃないですか」

社内でAI導入を進めると、ほぼ必ず「聞くたびに違う答えが出るから怖い」という反応が出てきます。これはもう、自然な感覚だと思うんですよね。

へクス子も同じ質問で違う表現が返ってきて、最初はけっこう戸惑いました。問題は、この体験だけから「AIは使えない」と結論づけてしまうことなんですよ。

最近の研究を見ると、このブレの一部は、AI本体の欠陥ではなく、測り方の設計のほうで膨らんでいる可能性が示されています。ここを切り分けて理解できると、運用の打ち手がぐっと具体的になりますよ。

まず押さえたいのが「プロンプト感度」です。言い回しを変えたとき、結果がどれだけ動くかを見る指標ですね。

Hua らの研究（R）は、ここで一歩踏み込みました。感度を観測するだけでなく、「その感度は、そもそも評価手法が作り出していないか」というところまで検証したんだそうな。7つの主要LLMを6ベンチマーク・12テンプレートで評価して、モデル側の揺れと評価側の揺れを切り分けようとした設計であります。

結論としては、観測された感度のかなりの部分が、評価手法のアーティファクトだった可能性が示されました。つまり、測定器のクセでブレが大きく見えていただけかもしれない、ということなんですよね。

従来の評価でよく使われるのが、「対数尤度スコアリング」や「厳密回答マッチング」です。前者は確率の配分を見る手法、後者は文字列の完全一致を見る手法ですね。どちらも機械処理しやすい反面、意味が同じ回答まで不一致として弾いてしまうことがあります（「OK」と「大丈夫です」を別物と判定する、あの感じです）。

そこでHua らは LLM-as-Judge を使い、意味のレベルで評価したときの挙動も比べました。結果は、性能分散の減少と、ランキング一貫性の改善です。ここから言えるのは「AIは絶対に安定」という話ではなく、「何を正解とみなすか次第で、見えるブレ幅は大きく変わる」ということでしょうな。

ここで、もっと実務に近いデータも見てみましょう。SparkToroとGumshoeの調査では、600人のボランティアが ChatGPT・Claude・Google AI へ推薦プロンプトを合計2,961回実行しています（R）。この結果が、なかなか直感に反するんですよ。

つまり、単発順位だけを見ると不安定ですが、Visibility%（出現率）で見ると傾向はむしろ安定しやすい、ということなんですよね。

同じ調査では、142のヒューマンクラフトプロンプトの意味的類似度は0.081と低めでした。それでも返ってくる回答は、似たブランド集合へ収束したと報告されています。個別リストは揺れても、反復すれば集合の傾向は見えてくるわけですね。

「1回の答え」はブレても、「反復したときの出現率」は安定しやすい。 これが、実務で使える読み方になりましょう。

AI回答のブレは、測定対象の欠陥である場合もあれば、測定器側のクセで大きく見えている場合もあります。だからこそ、1回の順位をそのままKPIにすると危ないんですよね。偶然の揺れと、本当に残る傾向を分けられなくなりますからね。

マーケ運用では、同じ意図の質問を反復して、出現率を主要指標にするほうが筋が通ります。評価方法も完全一致だけに寄せず、意味が合っている回答を拾える仕組みにしておきたいところです。そうすると、「AIがブレるから使えない」ではなく、「ブレを前提にどう測るか」へ話を進められます。

出典

Hua et al. (2025), “Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs”, arXiv
Rand Fishkin (SparkToro/Gumshoe) (2026), “NEW Research: AIs are highly inconsistent when recommending brands or products”, リンク