「AIで設問を作ると速いのに、なぜ結果が荒れるのか」
調査設計をAIに任せると、初稿のスピードは本当に速いですよね。数十問の下書きがあっという間に出てくるので、現場の体感としてはかなり助かります。
ただ、配信したあとで「回答のばらつきが大きい」「分析軸が揃わない」という問題が出るケースも、けっこう多いんですよ。ここを「AIの質が低いせい」で片づけてしまうと、たぶん同じ失敗を繰り返します。
そこで今回は、設問生成・プロンプト感度・実プロンプト分析の3本を重ねて、「どこで品質が崩れるのか」を整理してみましょう。
研究①: AI生成質問は「文脈適応」と「設計ミス」が同時に起きる
まずは Mburu らの研究です(R)。LLMで質問を作り、SQRAで事前検証する方法論を示した研究ですね。
結果は明快で、AIは文脈に沿った質問を作るのが得意だったんだそうな。ここだけ見ると、もう設計はお任せでよさそうに思えてきます。
ところが、同じ研究が課題のほうも示しています。冗長表現、ダブルバレル、専門用語の過多ですね。つまり「速く作れる」ことと「そのまま使える」ことは、まったく別の話だ、ということになりましょう。
研究②: 言い換え差3〜10%は、設問の揺らぎ管理を要求する
次に Errica らの研究です(R)。ここでのポイントは、意味が近い言い換えでも、測定上は3.2〜10%の差が出うる、という点であります。
アンケートだと、この差が「設問文の揺れ」と合わさったときに厄介なんですよ。似た意図なのに言い回しが微妙に違う設問が混ざると、回答分布の差が「意図の差」なのか「文面の差」なのか、分離しにくくなるからですね。
要するに、AI生成質問の運用では「問う内容」だけでなく、「問い方の統一」までが品質管理の範囲に入ってくるわけです。
研究③: AIが想定する質問は、実ユーザーの聞き方より短く商業寄り
3本目は Otterly AI の比較分析です(R)。実プロンプトと推定プロンプトを比べると、実プロンプトは平均71%長く、人称代名詞や問題志向の表現も大幅に多かったんだそうな。
この差は、調査設計にもそのまま効いてきます。AIに「聞きそうな質問を作って」と任せると、どうしても短く一般化された設問に寄りやすい。結果として、実ユーザーの文脈的な悩みを取り逃がしやすくなるわけですなぁ。
結論: 削るのは「下書き工数」だけ、品質管理は削らない
AIでアンケート設問を作ると、初稿づくりはたしかにかなり速くなります。ただし、速くなるのは「品質確認まで自動化できる」という意味ではありません。今回の3本で見えているのは、AIは設問のたたき台を出すのは得意でも、回答者が誤解しない形に整える最後の責任は、まだ人間側に残っている、ということなんですよね。
なので配信の前には、1問1論点になっているか、用語が揃っているか、回答者が状況を想像できる文脈があるか。このあたりを確認したいところです。AIの役割は「質問の初稿を速く作る」まで、本番で使える品質へ仕上げる責任は人間にある。ここを運用ではっきり分けておくのが、いちばん安全でしょう。
実ユーザーの聞き方と推定プロンプトの差分を、もう少し具体的に見たい場合は、ChatGPTへの「実プロンプト」、推定より71%も長くて全然違ったぞ!が、そのまま実務の補助線になりますよ。
出典
- Mburu, T. K., Rong, K., McColley, C. J., & Werth, A., “Methodological foundations for artificial intelligence-driven survey question generation”, Journal of Engineering Education, 114(3), e70012, 2025, DOI:10.1002/jee.70012
- Errica, F., Siracusano, G., Sanvito, D., & Bifulco, R., “What Did I Do Wrong? Quantifying LLMs’ Sensitivity and Consistency to Prompt Engineering”, NAACL 2025, arXiv:2406.12334
- Thomas Peham (Otterly AI), “Real vs Estimated Prompts: I Analyzed 100s of Real ChatGPT Queries”, 2026, Otterly AI Blog