「AIに自社のこと聞くと、毎回ちがう答えが返ってくる」問題
最近、自社やライバルの名前をChatGPTに聞いてみる、というマーケターが増えてきましたよね。「うちの業界でおすすめの会社は?」と打ち込んで、自社が出てくるかどうかを確かめる。AI時代の新しい鏡みたいなものでして、やってみたくなる気持ちはよくわかります。
なんですが、何度か試した方は、たぶん同じモヤモヤにぶつかっているはずなんですよ。さっきは自社が3番目に出てきたのに、もう一回聞いたら名前ごと消えている。へクス子も最初にやったときは、「これ、どっちが本当の結果なの?」と画面の前で固まりました。
この「聞くたびにブレる」現象、ふつうは「AIなんてそんなものでしょ」で片づけられがちじゃないですか。ところが、もしそのブレ方に法則があって、しかも自分でコントロールできるとしたら、ちょっと話が変わってきますよね。
今回は、そのブレが「質問の種類」でどこまで予測できるのかを、14,000回ぶんの実測で調べた話を見ていきたいと思います。
まず、どうやって「ブレ」を測ったのか
調べたのは、AI可視性ツールを手がけるConductorのリサーチチームです(R)。規模がなかなかでして、合計14,000回もAIに質問を投げて、ChatGPT・Perplexity・Claude・Geminiの4つのAIから返ってきた答えを記録しております。
ポイントは、質問を「意図」の種類で7つに分けたところなんですよ。ってのは、要は「その質問で客が何をしようとしているか」の種類のことですね。「どれを買うべき?」は購入、「AとBどっちがいい?」は比較、「そもそも◯◯って何?」は教育、といった具合に、目的ごとに7タイプへ仕分けたわけです。
そのうえで、ブレ具合を2つの物差しで測っております。
- ブランド一致率: 同じ質問を2回投げて、両方の答えに共通して出てくるブランドの割合
- 1位の安定率: 最初に挙がる「イチオシ」が、2回とも同じだった割合
どちらも高いほど「安定して同じ答えが返る」という意味になります。では、結果を見てみましょう。
結果: 購入系はブレ倒し、比較系はほぼ揺るがない
で、出てきた数字がなかなか面白いんですよ。質問の意図によって、安定度がきれいに階段状で変わっておりました。
いちばんブレたのが購入系の質問です。ブランド一致率はわずか40%。研究チームの言い方を借りると、「購入プロンプトを2回流すと、登場したブランド10件のうち、両方に出てきたのはたった4件」だったそうな。残り6件は、聞くたびに顔ぶれが入れ替わっていたわけですね。
逆に、いちばん安定していたのが比較系の質問でして、1位の安定率は91%。「AとB、どっちがいい?」と聞くと、ほぼ毎回おなじブランドがトップに来る。同じAIに同じことを聞いているのに、購入系と比較系で、ここまで世界が違っていたわけです。
ちなみに教育系には変わったクセがありまして、ブランドの顔ぶれ自体はそろいやすいのに、1位の安定率は30%しかない。しかも質問の45〜72%は、そもそもブランド名を1つも返さなかったそうです。「◯◯って何?」と聞かれたAIは、特定の企業名を出すより一般論で答えたがるんでしょうな。
なんで「買うとき」の質問ほどブレるのか
ここで「なるほど」と思えるのが、ブレやすさと、その質問領域の混み具合が、だいたい対応している点なんですよ。
購入のように「結局どれを買えばいいの?」という質問は、候補になりうるブランドが山ほどありますよね。選択肢が多くて、しかも甲乙つけがたい。そういう混み合った領域では、AIも毎回ちょっとずつ違う面子を引っぱり出してくる。いわば、福袋の中身が毎回微妙に違うようなものでして、当たりブランドが入る日もあれば、すっぽり抜ける日もある、と。
一方の比較系は、すでに「AとB」と候補が絞られた状態で聞かれます。土俵に乗る顔ぶれが決まっているので、答えがそうそうブレようがない。だから安定する、という理屈ですね。
もう一つ見落とせないのが、AIごとのクセです。同じ質問でも、ChatGPTは1回の答えで平均5ブランドくらいに絞ってくるのに対し、Geminiは平均9.2ブランドとたくさん並べてくる。たくさん挙げるAIほど、当然そのぶん顔ぶれも入れ替わりやすい。PerplexityとClaudeは、その中間あたりでした。
つまり「どのAIで測るか」によっても、ブレの基礎体力がそもそも違っているわけっすね。
AI露出を測るなら、まず「質問の意図」を固定する
ここまでをまとめますと、AIの答えがブレるのは気まぐれではなく、「どんな意図の質問をしたか」でかなりの部分が決まっていた、というのが今回の話です。購入系は宿命的にブレ、比較系はほぼ揺るがない。同じ自社名を追いかけていても、聞き方しだいで見える景色がまるで変わってしまうわけですね。
なので、自社のAI露出を定点観測したいなら、まず手をつけるべきは1つです。
測定に使う質問の「意図」を固定すること。
定点観測ってのは、要は同じ条件で測り続けることなんですが、今日は購入系、来週は比較系、とバラバラに聞いていては、数字の変化が施策の効果なのか、ただのブレなのか、永遠に切り分けられません。安定して効果を追いたいなら比較系を、現場のリアルな揺らぎを知りたいなら購入系を、と目的別に決め打ちする。あとは毎回おなじ条件で測り続けるのが、出発点になります。
そのうえで大事なのが、1回の結果に一喜一憂しないことですね。購入系で自社が消えた日があっても、それは施策の失敗ではなく、もともとブレる領域だっただけかもしれない。だからこそ、何度か回した平均やトレンドで見る、という前提を最初に持っておくと、無駄に振り回されずにすみます。
次の一歩としては、自社をよく表す質問を意図ごとに数本だけ選んで、同じAI・同じ回数で定期的に測る仕組みを、小さくでも作ってみるのがよいでしょう。よその「AIにこう聞いたら出た/消えた」という単発の声ではなく、自社の数字を自社の物差しで読めるようになる。そこが、AI可視性とまともに付き合うための最初の一歩になるはずです。
出典
- Jia-Rong Li (Conductor), “AI Brand Recommendation Study: Why Intent Type Predicts AI Output Consistency”, 2026, リンク