「聞き方ミスで全部ダメ」って、本当なんでしょうか
社内でAI活用を始めると、だいたい同じ不安が出ますよね。「聞き方を少し変えるだけで、答えが別物になる」「プロンプトの正解テンプレートを暗記しないと危ない」みたいな話です。
へクス子の周りでも、プロンプト集を配って全社で統一しよう、という動きはよく見かけます。もちろん標準化は大事なんですが、ここで一回立ち止まりたいんですよ。実際どのくらいブレるのかを確かめずに、運用コストだけ先に増やしていないか、という点ですね。
そこで今回は、プロンプト感度を定量化した研究と、評価方法そのものを疑った研究を並べてみます。「聞き方の問題」なのか「測り方の問題」なのかを、いったん分けて考えてみましょう。
研究①: 言い換えの影響はゼロじゃないが、想像より小さい
まずは Errica らの研究であります(Errica et al., NAACL 2025)。この研究では、LLMのプロンプト感度を測るために、2つの指標を置いています。
- 感度(sensitivity): プロンプトを言い換えたとき、予測がどれだけ変わるか
- 一貫性(consistency): 同じ入力群で、言い換え間の予測がどれだけ安定するか
ここでいう言い換えは、に近い操作ですね。要は、表現だけ変えて意味は揃える、という操作だと思ってください。
で、複数の分類タスクで測ると、精度変動は**3.2〜10%**に収まったんだそうな。ゼロではないけれど、「一語違えば全部壊れる」ほどではない、という読み方が妥当でしょう。「一文字でも間違えたら即アウト」みたいな緊張感で向き合っている方も多いんですが(爆弾処理班じゃないんですから)、実態はもう少し穏やかなわけっすね。
さらに重要なのが、表面的な語順よりも意味構造のほうが効いていた点です。つまり運用で効くのは「正解の言い回し」より「何を判断させたいかを明確にする」ほうだ、ということになりましょう。
研究②: 大きなブレは評価手法のアーティファクトかもしれない
次に Hua らです(Hua et al., EMNLP 2025)。問いはシンプルで、「高い感度はモデルの弱点なのか、それとも評価方法が作った見かけなのか?」というものですね。7つの主要LLMを、6ベンチマーク・12テンプレートで検証しています。
この研究では、従来よく使われてきた手法、たとえば
- 対数尤度スコアリング
- 厳密回答マッチング
あたりが、意味的には同等の回答まで不一致として扱い、ブレを過大に見せている可能性が示されました。逆に LLM-as-Judge を使うと、性能分散が下がり、ランキングの一貫性が上がったんだそうです。
要するに、「AIが不安定だ」と思っていたものの一部は、測定器そのものの設計問題だったのかもしれない、ということですね。この切り分けは、運用設計のうえでかなり大きい話ですなぁ。
結論: 「魔法の一文」探しより評価ルールを先に点検する
プロンプトで結果が変わるのは事実なんですが、だからといって「これさえ唱えれば勝てる一文」を探し続けるのは、あまり筋がよくありません。今回の2本で見えたのは、プロンプトの問題に見えていたものの一部が、評価方法の粗さや完全一致判定のクセで膨らんでいた可能性のほうでした。
なので、マーケ運用で先に点検したいのは、聞き方そのものよりも、回答をどう採点しているかです。完全一致だけで良し悪しを決めていないか、意味が合っている回答まで落としていないか。ここを見直すだけで、見かけのブレはかなり落ち着きます。
そのうえで、社内のプロンプト方針は「目的・制約・出力形式」を明示するくらいに整理すれば十分でしょう。この順番にすると、「聞き方を間違えたら全部ダメ」という恐怖から、するっと抜けやすくなりますよ。
出典
- Errica, F., Siracusano, G., Sanvito, D., & Bifulco, R., “What Did I Do Wrong? Quantifying LLMs’ Sensitivity and Consistency to Prompt Engineering”, NAACL 2025, arXiv:2406.12334
- Hua, A., Tang, K., Gu, C., Gu, J., Wong, E., & Qin, Y., “Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs”, EMNLP 2025, arXiv:2509.01790