「昨日と今日でおすすめが違う」から始まる不信感
AIにブランド推薦を聞くと、昨日はA社、今日はB社、みたいな揺れが普通に起きますよね。これを見て「順位が変わるなら測定なんてムリだろう」と感じるのは、かなり自然な反応だと思います。
ただ、単発の順位がブレることと、測定そのものが無効なことは、まったくの別問題なんですよ。見る単位をちょっと変えてやると、ちゃんと実務に残せる信号が出てきます。
そんなわけで今回は、2,961回という大規模な観測から、その「残せる信号」を拾ってみましょう。
2,961回の観測で、単発順位はほぼ再現しなかった
SparkToro/Gumshoeの調査(R)は、600人・2,961回というなかなかの規模で、推薦の揺れを測ったんだそうな。結果はかなり明快でした。
- 同一リスト一致は1%未満
- 順序一致は約0.1%
この数字を見るかぎり、1回の回答画面をそのまま「今月の順位」として報告するのは危ういですね。サイコロを1回だけ振って「このサイコロは1が出やすい」と決めつけるようなもので、順位はノイズまみれと言ってよいでしょうな。
でも出現率は安定し、比較可能な差が残った
ところが、同じデータで見逃せないのが出現率の安定なんですよね。たとえば高可視性ブランドが71回中97%で出てくるなど、「何位か」ではなく「どれくらい出るか」で見ると、ちゃんと再現性が出ています。
さらに面白いことに、意味的に似ていないプロンプト群でも、返ってくるブランド集合は寄っていく傾向が観測されました。これはErricaらの研究(Errica et al., NAACL 2025)が示した「表現の差より意味構造のほうが効きやすい」という結果とも、きれいに整合するわけですね。
勝負はモデル比較より「測定設計」の揃え方
実務でやりがちなのが、「どのモデルが優秀か」を先に語ってしまって、測定条件の差を見落とすパターンであります。同じプロンプトを60〜100回まわす設計なのか、10回未満でエイッと結論を出しているのかで、読み取れる精度はまるで違ってくるんですよ。
ここでもうひとつ大事なのが、平均値だけでなくを併記できるかどうかです。差があるように見えて、実は誤差の帯どうしが重なっているだけ、なんてケースは珍しくありませんからね。
結論: 順位の上下より「測定条件」をそろえる
AI推薦を月次で追うなら、順位の上下に一喜一憂するより、測定条件をそろえることのほうがずっと大事です。2,961回の反復測定が教えてくれるのは、AIの答えにはそもそもブレがあるからこそ、単発順位ではなく出現率で見るべきだ、ということなんですよね。
だから、ツールを選ぶときは、反復回数と出現率の集計ロジックが公開されているかを確かめておきたいところです。社内レポートも同じで、質問設計・モデル条件・集計期間をそろえて並べる。ここが崩れると、本当に改善したのか、それとも測り方が変わっただけなのか、区別がつかなくなりますからね。
7本の関連調査をまとめて俯瞰したい場合は、AI可視性ツールは「順位より出現率」を見れば外しにくい話 が全体の入口になりましょう。
出典
- Rand Fishkin (SparkToro/Gumshoe), “NEW Research: AIs are highly inconsistent when recommending brands or products; marketers should take care when tracking AI visibility”, 2026-01-27, https://sparktoro.com/blog/new-research-ais-are-highly-inconsistent-when-recommending-brands-or-products-marketers-should-take-care-when-tracking-ai-visibility/
- Federico Errica, Giuseppe Siracusano, Davide Sanvito, Roberto Bifulco, “What Did I Do Wrong? Quantifying LLMs’ Sensitivity and Consistency to Prompt Engineering”, NAACL 2025, arXiv:2406.12334