もどる HexScope Lens

「おすすめ教えて」、AIは聞き方しだいで答えが変わるの?

POINT この記事のポイント
  • 実ユーザーの質問は推定より71%長い相談文だった
  • 「おすすめ」型だけでは測定がズレるという話

「おすすめのツール教えて」で、本当に知りたい答えは返ってくるんですかね

ChatGPTへの質問って、短い検索語みたいな聞き方と、条件を細かく添えた相談文の2タイプがあるじゃないですか。

同じ「おすすめを聞く」でも、後者のほうがずっと意思決定に近い質問なんですよね。ここを区別せずに測ると、AI可視性の評価をけっこう外しやすくなります。

実務でも「どのプロンプトで自社が出るか」を追うケースは増えてますが、推定プロンプト中心の測定だと、実ユーザーの聞き方を取り逃がすことがあるわけです。

なので今回は、実プロンプトと推定プロンプトの差分から、測定設計をどう変えるべきかを見ていきましょう。

実ユーザーの質問は、思ったより長くて個人的だった

Otterly AI の分析(R)では、数百件の実プロンプトと推定プロンプトを比較しています。で、結果はかなりはっきりしていました。

  • 平均語数: 推定8.8語、実15.1語(実は71%長い)
  • 人称代名詞: 推定18.8%、実52.1%(実は2.8倍)
  • 問題志向表現: 推定7.1%、実21.1%(実は3倍)
  • 開始語: 推定は「best」偏重、実は「what」「I」が多い

要するに、実ユーザーは「最適な製品名を教えて」だけでなく、「うちの人数・予算・運用体制だとどれが現実的か」まで聞いてるんですよ。検索語というより、相談文に近いわけですね。想像以上に生々しい質問でございます。

言い回しより「何を聞いているか」が効いてくる

ここで補助線になるのが Errica らの研究です(R)。言い換え差による精度変動は3.2〜10%で、表面の語より意味構造の影響が大きいと示されています。

だから問題は、「best」を「top」に変えるかどうかじゃないんですよね。質問の意味が、比較ランキングなのか、条件付きの意思決定なのか。ここが違うと、返ってくる回答の性質そのものが変わってくるわけです。

測定プロンプトも、生成任せにすると実態からズレる

さらに Mburu らの研究(R)を見ると、AI生成の質問は速くても、冗長化やダブルバレルが起きやすいと報告されているそうな。便利な分、ちょっと油断ならないですなぁ。

つまり、測定で使う質問文そのものも、検証対象だということですね。Otterly の差分を重ねると、注意点はもっとはっきりします。AIに「想定質問を作って」と任せるだけでは、短く商業寄りの問いに偏りやすいんでしょう。実ユーザーの相談文に近い質問を、意図的に混ぜておく必要があるわけです。

結論: 測定は「best型」単独をやめて、相談型を混ぜる

AI可視性を測るとき、「best 〇〇」みたいな短い質問だけを並べると、実ユーザーの相談文からどんどんズレていきます。実際の質問は、人数、予算、導入制約、比較条件まで入って、もっと長くて具体的なんですよ。ここを外すと、測っているつもりで別のものを測ってしまうわけですね。

なので、プロンプトセットは短い best 型と、条件つきの相談型を混ぜておくのがよさそうです。コンテンツ点検でも、機能比較だけでなく「この条件ならどれがいいか」に答えられるかまで見ておく。これだけで、AIが実際の相談場面で自社ブランドをどう扱うかに、グッと近づけるはずです。


出典

  • Thomas Peham (Otterly AI), “Real vs Estimated Prompts: I Analyzed 100s of Real ChatGPT Queries”, 2026-02-03, Otterly AI
  • Federico Errica, Giuseppe Siracusano, Davide Sanvito, Roberto Bifulco, “What Did I Do Wrong? Quantifying LLMs’ Sensitivity and Consistency to Prompt Engineering”, NAACL 2025, arXiv:2406.12334
  • Mburu, T. K., Rong, K., McColley, C. J., & Werth, A., “Methodological foundations for artificial intelligence-driven survey question generation”, Journal of Engineering Education, 114(3), e70012, 2025, DOI:10.1002/jee.70012
記事一覧にもどる