「AIペルソナに聞けば、市場調査いらないんじゃない?」
最近、「AIペルソナで先に顧客反応を見よう」という提案がかなり増えてきました。仮説検証を速くしたい現場ほど、ここに期待しちゃうんですよね。
実際、広告コピーや新商品の初期評価で使うと、方向感を掴むにはなかなか便利です。ただ、ここで一番大事なのは「どこまで信じていいか」の線引きじゃないですか。
なので今回は、再現性を示した研究と、評価手法を見直した研究を合わせて、「使える範囲」と「戻るべき判断」を整理してみましょう。
1,052人の「本人っぽいAI」を作った研究
まず Park らの研究です(R)。1,052人への質的インタビューをもとに、各人のAIエージェントを作って、本人回答をどこまで再現できるかを見ているんですよ。
検証に使われたのは、の設問です。で、結果はと言いますと、本人の2週間後再回答を基準に85%まで再現でした。
加えて、人口統計だけで作るより、インタビューベースのほうがグループ間バイアスが小さいと報告されているそうな。つまり、精度を作っているのは「AIペルソナという形式」より「入力した顧客理解の深さ」なわけですね。
ただし、研究の前提は「情報が濃いペルソナ」である
ここを飛ばすと、けっこう誤解が起きます。Park らの設定は、よくある「30代女性・会社員・時短志向」みたいな3行設定ではないんですよ。
2時間級のインタビュー情報が入って、はじめて85%再現に届いています。逆に言えば、入力が薄いまま「AIが答えたから市場の声だ」と扱うのは、なかなか危ういわけです。
実務でも、過去インタビュー、問い合わせログ、失注理由あたりを素材として入れない限り、再現性は上がりにくいでしょう。AIペルソナは「調査不要化」ではなく、「既存理解の増幅装置」と捉えるのが正解ですね。
もう一つの論点は「回答ブレをどう評価するか」
次に気になるのが、聞き方を変えたときの安定性です。ここで参考になるのが Hua らの研究でして(R)。
この研究では、感度の大部分がモデルの弱点ではなく、評価手法のアーティファクト由来だった可能性が示されています。意味が同じ回答を文字列の不一致で弾けば、当然ブレは大きく見えてしまうわけです。
AIペルソナ調査で大事なのは、「1回の回答文を真実として読む」ことじゃないんですよね。反復実行で傾向を見る。結論に使う前に、人間データで確かめる前提が要る、ということでしょうな。
結論: AIペルソナは「仮説抽出まで」、最終判断は人間データへ戻す
AIペルソナは、顧客理解の入口としてはかなり便利な道具です。ただし、3行の属性だけを渡して出てきた回答を、そのまま市場の声として扱うのは危ないでしょう。入力が薄ければ、返ってくるペルソナも、それっぽい平均像に寄りやすいからなんですよ。
使うなら、過去インタビューや顧客の声(VOC)を入れて素材を厚くして、仮説抽出や論点整理までに役割を絞るのが安全です。価格、予算配分、ポジショニングの最終判断は、人間調査や実データへ戻す。この境界線を文章にして残しておくと、AIの速度を使いながら、意思決定の重さもちゃんと守れるわけですね。
回答ブレの測定設計まで詰めたい場合は、「AIの回答は毎回ブレるから使えない」は本当か?それとも評価方法のクセなのか?を合わせて読むと、運用ルールに落とし込みやすくなります。
出典
- Park, J. S. et al. (Stanford University, Google DeepMind), “Generative Agent Simulations of 1,000 People”, arXiv:2411.10109, 2024, arXiv
- Hua, A. et al., “Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs”, EMNLP 2025 Main Conference, arXiv:2509.01790, arXiv
関連記事