「おすすめ教えて」、AIは聞き方しだいで答えが変わるの？

POINT この記事のポイント

「おすすめのツール教えて」で、本当に知りたい答えは返ってくるんですかね

ChatGPTへの質問って、短い検索語みたいな聞き方と、条件を細かく添えた相談文の2タイプがあるじゃないですか。

同じ「おすすめを聞く」でも、後者のほうがずっと意思決定に近い質問なんですよね。ここを区別せずに測ると、AI可視性の評価をけっこう外しやすくなります。

実務でも「どのプロンプトで自社が出るか」を追うケースは増えてますが、推定プロンプト中心の測定だと、実ユーザーの聞き方を取り逃がすことがあるわけです。

なので今回は、実プロンプトと推定プロンプトの差分から、測定設計をどう変えるべきかを見ていきましょう。

Otterly AI の分析（R）では、数百件の実プロンプトと推定プロンプトを比較しています。で、結果はかなりはっきりしていました。

要するに、実ユーザーは「最適な製品名を教えて」だけでなく、「うちの人数・予算・運用体制だとどれが現実的か」まで聞いてるんですよ。検索語というより、相談文に近いわけですね。想像以上に生々しい質問でございます。

ここで補助線になるのが Errica らの研究です（R）。言い換え差による精度変動は3.2〜10%で、表面の語より意味構造の影響が大きいと示されています。

だから問題は、「best」を「top」に変えるかどうかじゃないんですよね。質問の意味が、比較ランキングなのか、条件付きの意思決定なのか。ここが違うと、返ってくる回答の性質そのものが変わってくるわけです。

さらに Mburu らの研究（R）を見ると、AI生成の質問は速くても、冗長化やダブルバレルが起きやすいと報告されているそうな。便利な分、ちょっと油断ならないですなぁ。

つまり、測定で使う質問文そのものも、検証対象だということですね。Otterly の差分を重ねると、注意点はもっとはっきりします。AIに「想定質問を作って」と任せるだけでは、短く商業寄りの問いに偏りやすいんでしょう。実ユーザーの相談文に近い質問を、意図的に混ぜておく必要があるわけです。

AI可視性を測るとき、「best 〇〇」みたいな短い質問だけを並べると、実ユーザーの相談文からどんどんズレていきます。実際の質問は、人数、予算、導入制約、比較条件まで入って、もっと長くて具体的なんですよ。ここを外すと、測っているつもりで別のものを測ってしまうわけですね。

なので、プロンプトセットは短い best 型と、条件つきの相談型を混ぜておくのがよさそうです。コンテンツ点検でも、機能比較だけでなく「この条件ならどれがいいか」に答えられるかまで見ておく。これだけで、AIが実際の相談場面で自社ブランドをどう扱うかに、グッと近づけるはずです。

出典

Thomas Peham (Otterly AI), “Real vs Estimated Prompts: I Analyzed 100s of Real ChatGPT Queries”, 2026-02-03, Otterly AI
Federico Errica, Giuseppe Siracusano, Davide Sanvito, Roberto Bifulco, “What Did I Do Wrong? Quantifying LLMs’ Sensitivity and Consistency to Prompt Engineering”, NAACL 2025, arXiv:2406.12334
Mburu, T. K., Rong, K., McColley, C. J., & Werth, A., “Methodological foundations for artificial intelligence-driven survey question generation”, Journal of Engineering Education, 114(3), e70012, 2025, DOI:10.1002/jee.70012