もどる HexScope Lens

「ChatGPTのおすすめ、毎回違うじゃん」って測定する意味あるの?

POINT この記事のポイント
  • 毎回違って見えても、ブレの一部は「測り方」のせいらしい
  • 測るコツは単発の順位でなく、繰り返したときの出現率

「さっきと違うブランドが出てきたんだけど」問題

ChatGPTに同じ質問をしているのに、昨日と今日でおすすめが変わる。AIを業務で使っていると、ここで一度は手が止まりますよね。自社のAI Visibilityを追いたくても、「こんなにブレるなら、測っても無意味なんじゃ」と感じるのは、ごく自然な反応であります。

ただ、この直感だけで測定を捨てるのは、ちょっと早いんですよ。最近は「どこまでが本当にAIのブレで、どこからが測り方のブレなのか」を分解した研究が、ちょうどそろってきました。今日はそこを順番に見ていきましょう。

言い換えによる変動は3.2%〜10%に収まる

Erricaらの研究(R)は、同じ意味の質問を言い換えたときの変動を測っています。ここで使われるプロンプト感度は、「表現を変えたときに予測がどれだけ動くか」を見る指標ですね。

複数のLLMで検証した結果、パラフレーズによる変動は3.2%〜10%だったんだそうな。ゼロではないけれど、「少し言い換えると全崩れ」というほどでもない、というのが一次情報ベースの結論です。つまり表現テクニックよりも、「何を判断させたいか」という意味構造のほうが効いている可能性が高いわけですね。

「そのブレは測り方で増幅しただけ」もありえる

Huaらの論文(R)は、ここをさらに掘っています。7つのLLMを6ベンチマーク×12テンプレートで評価し、ブレの正体を点検した研究です。

結論はかなり示唆的で、見かけの変動の多くが評価手法由来のアーティファクトだった可能性を示しています。とくに、対数尤度や厳密一致を中心にした採点よりも、LLM-as-Judgeに寄せたほうが分散が下がり、ランキングの安定性が上がったんですよね。要するに、モデルそのものよりのほうが結果を揺らしていた場面がある、ということですなぁ。

2,961回の実データでは「順位」より「出現率」が安定した

SparkToro/Gumshoeの調査(R)で、実務寄りの答え合わせができます。600人が3つのAIに合計2,961回質問したところ、同一リストの再現は1%未満、順序一致は約0.1%でした。

それでも、特定ブランドの出現率のほうは安定していたわけです。高可視性ブランドが71回中97%で出るなど、「何位か」は揺れても「どれくらい出るか」は追える。ここが、マーケターが測定を諦めなくていい理由になりますね。

結論: 「ブレるAI」を測るなら最初の2手を固定する

AIの推薦が毎回少し変わるからといって、測定そのものを諦める必要はありません。むしろ問題は、単発の回答を順位表として読みすぎることのほうなんですよね。ブレる前提に立つなら、見るべきは1回の順位ではなく、同じ条件で繰り返したときの出現率になります。

そのためには、最初に質問設計と集計条件を固定しておくのが大事です。ツールを選ぶときも、反復回数、出現率の集計方法、比較期間が公開されているかを見たいところでしょう。公開されていない順位表だけのダッシュボードは、施策判断の主役にはしないほうが無難であります。

実運用の測定設計をもう少し具体化したい場合は、「AIに聞くたびブランド推薦が変わる」のは本当か?を2,961回測った問題 を続けて読むと、実践へ落とし込みやすいですよ。


出典

  • Errica, F., Siracusano, G., Sanvito, D., Bifulco, R. (2024/NAACL 2025), “What Did I Do Wrong? Quantifying LLMs’ Sensitivity and Consistency to Prompt Engineering”, arXiv:2406.12334
  • Hua, A., Tang, K., Gu, C., Gu, J., Wong, E., Qin, Y. (2025/EMNLP 2025), “Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs”, arXiv:2509.01790
  • Fishkin, R. (SparkToro/Gumshoe), “NEW Research: AIs are highly inconsistent when recommending brands or products”, SparkToro Blog
記事一覧にもどる