「おすすめのツール教えて」で、本当に知りたい答えは返ってくるんですかね
ChatGPTへの質問って、短い検索語みたいな聞き方と、条件を細かく添えた相談文の2タイプがあるじゃないですか。
同じ「おすすめを聞く」でも、後者のほうがずっと意思決定に近い質問なんですよね。ここを区別せずに測ると、AI可視性の評価をけっこう外しやすくなります。
実務でも「どのプロンプトで自社が出るか」を追うケースは増えてますが、推定プロンプト中心の測定だと、実ユーザーの聞き方を取り逃がすことがあるわけです。
なので今回は、実プロンプトと推定プロンプトの差分から、測定設計をどう変えるべきかを見ていきましょう。
実ユーザーの質問は、思ったより長くて個人的だった
Otterly AI の分析(R)では、数百件の実プロンプトと推定プロンプトを比較しています。で、結果はかなりはっきりしていました。
- 平均語数: 推定8.8語、実15.1語(実は71%長い)
- 人称代名詞: 推定18.8%、実52.1%(実は2.8倍)
- 問題志向表現: 推定7.1%、実21.1%(実は3倍)
- 開始語: 推定は「best」偏重、実は「what」「I」が多い
要するに、実ユーザーは「最適な製品名を教えて」だけでなく、「うちの人数・予算・運用体制だとどれが現実的か」まで聞いてるんですよ。検索語というより、相談文に近いわけですね。想像以上に生々しい質問でございます。
言い回しより「何を聞いているか」が効いてくる
ここで補助線になるのが Errica らの研究です(R)。言い換え差による精度変動は3.2〜10%で、表面の語より意味構造の影響が大きいと示されています。
だから問題は、「best」を「top」に変えるかどうかじゃないんですよね。質問の意味が、比較ランキングなのか、条件付きの意思決定なのか。ここが違うと、返ってくる回答の性質そのものが変わってくるわけです。
測定プロンプトも、生成任せにすると実態からズレる
さらに Mburu らの研究(R)を見ると、AI生成の質問は速くても、冗長化やダブルバレルが起きやすいと報告されているそうな。便利な分、ちょっと油断ならないですなぁ。
つまり、測定で使う質問文そのものも、検証対象だということですね。Otterly の差分を重ねると、注意点はもっとはっきりします。AIに「想定質問を作って」と任せるだけでは、短く商業寄りの問いに偏りやすいんでしょう。実ユーザーの相談文に近い質問を、意図的に混ぜておく必要があるわけです。
結論: 測定は「best型」単独をやめて、相談型を混ぜる
AI可視性を測るとき、「best 〇〇」みたいな短い質問だけを並べると、実ユーザーの相談文からどんどんズレていきます。実際の質問は、人数、予算、導入制約、比較条件まで入って、もっと長くて具体的なんですよ。ここを外すと、測っているつもりで別のものを測ってしまうわけですね。
なので、プロンプトセットは短い best 型と、条件つきの相談型を混ぜておくのがよさそうです。コンテンツ点検でも、機能比較だけでなく「この条件ならどれがいいか」に答えられるかまで見ておく。これだけで、AIが実際の相談場面で自社ブランドをどう扱うかに、グッと近づけるはずです。
出典
- Thomas Peham (Otterly AI), “Real vs Estimated Prompts: I Analyzed 100s of Real ChatGPT Queries”, 2026-02-03, Otterly AI
- Federico Errica, Giuseppe Siracusano, Davide Sanvito, Roberto Bifulco, “What Did I Do Wrong? Quantifying LLMs’ Sensitivity and Consistency to Prompt Engineering”, NAACL 2025, arXiv:2406.12334
- Mburu, T. K., Rong, K., McColley, C. J., & Werth, A., “Methodological foundations for artificial intelligence-driven survey question generation”, Journal of Engineering Education, 114(3), e70012, 2025, DOI:10.1002/jee.70012