AIに本物の人間1000人を"演じ"させたら、85%本人と一致したらしい

POINT この記事のポイント

1052人を再現したAIエージェント、本人と85%一致したらしい
それでも「実測」の代わりにはならない、という線引きの話

#AI
#消費者調査
#合成データ
#ペルソナ
#ブランド調査

「このペルソナ、結局わたしの想像で書いてませんか」

ターゲット顧客のペルソナを作るとき、年齢や職業まではいいとして、「この人ならどう感じるか」のところは、けっこう自分の想像で埋めていませんか。

へクス子も、ペルソナシートの「価値観」「悩み」の欄を前にして、これ本当に当たってるのかなと手が止まった経験が何度もあります。

最近は、そこをAIに任せてしまう手も出てきたんですよね。「30代の都市部の母親になりきって答えて」と頼めば、それっぽい回答がするする返ってくる。消費者調査やインタビューの代わりに使えないか、と考えた方もいるんじゃないですかね。

なんですが、ここで当然わいてくるのが「で、その答えはどこまで本物の人間と一致するの？」という疑問です。この問いに、実在の人をまるごと再現するという力技で挑んだ研究がありまして、今回はそのへんを掘り下げてみたいと思います。

1000人にインタビューして、その人を”AIで再現”した研究

紹介するのは、スタンフォード大学とGoogle DeepMindのチームが2024年に出した研究です（R）。

やったことは、なかなかの力技でして。実在する1,052人の協力者に、一人あたりたっぷり時間をかけた深いインタビューを行い、その語りをまるごとAIに読み込ませて、「その人を再現するエージェント」を一人ずつ作ったんですよ。

ってのは、要は「ある人の受け答えを肩代わりするAIの分身」って感じですね。デモグラ情報だけで作る大ざっぱなペルソナとは違い、本人の生の語りを土台にしているのがミソです。

「本人と85%一致」の、ちょっと意外な測り方

では、その分身がどれくらい本物に近かったのか。ここが一番おもしろいところなんですよ。

チームは、社会調査でよく使われるという大きなアンケートを、本人とAI分身の両方に答えさせて、回答の一致率を比べました。

結果、AI分身は本人の回答を約85%の精度で再現したそうな。

ただ、この85%という数字、基準の置き方がうまいんですよね。何と比べた85%かというと、同じ人に2週間後にもう一度同じ質問をしたときの、本人どうしの一致率を100%の天井としているんです。

つまり、人間って2週間あれば自分の答えすら少しブレる生き物でして。2週間前の自分とアンケートで意見が割れるって、なかなかの自己矛盾ですよ。その「本人ですらこのくらいしか自分と一致しない」というラインを基準にして、AI分身はその85%まで迫った、という話なわけです。生身の人間の再現性を物差しにしているぶん、かなり手厳しい採点ですね。

得意なところと、ちゃんと苦手なところ

一致したのはアンケートだけではありません。性格特性の予測や、行動経済学でよく使われる実験ゲームの再現でも、AI分身は同等の成績を出したそうな。

しかも地味に効いているのが、グループ間のかたよりが小さかった点です。デモグラ情報だけで作ったエージェントは、人種や思想のグループによって精度に差が出やすいんですが、本人の語りを土台にした分身は、その精度のばらつきを抑えられたんですよ。

とはいえ、何でも完璧というわけではありません。研究チーム自身、態度を問う一部の予測などでは取りこぼしがあると認めています。「平均的な傾向の再現は得意でも、一人の細かな本音まで丸ごと写し取れるわけではない」という線引きは、しっかり押さえておきたいところです。

便利だからこそ、検証なしでは使えない

この「合成回答」をマーケの実務に持ち込もうとすると、もうひとつ無視できない論点が出てきます。質問の作り方です。

AIに調査の設問づくりまで任せる試みも研究されていて、文脈に合った質問を作るのは得意な一方、1問に論点を2つ詰め込んだ設問や、専門用語の出しすぎといった、人間でもやりがちな失敗が出ることが報告されています（R）。

だからこそ、合成で作った質問も回答も、人の目を通す検証工程とセットで初めて実用に耐える、というのが正直なところなんですよね。

要するに、AIの合成回答は「下書き」としては相当優秀だけれど、検証を省いた瞬間に、もっともらしいだけの作文に化けるリスクをはらんでいる、というわけです。

結論: 「下調べ」はAIに、「実像の確認」は実測に

では、この研究をマーケターやブランド担当はどう持ち帰ればいいのか。

いちばんの線引きは、AIの合成回答は仮説出しや調査設計の下調べには強力だけれど、ブランドが実際にどう見られているかという”実像”の代わりにはならない、ということです。85%まで迫れるとはいえ、それは生身の人間というお手本があってこその数字でして、本物の測定をまるごと置き換える話ではないんですよね。

ですから実務では、「これはAIに聞いた答えなのか、それとも実際の人やデータを測った結果なのか」を、はっきり分けて扱うのが安全です。前者は議論のたたき台、後者は意思決定の根拠、と役割を切り分けておく。混ぜてしまうと、想像で書いたペルソナを実態だと思い込んだときと同じ落とし穴にはまってしまうわけですね。

そのうえで、自社やブランドの実像については、AIに代弁させた”それっぽい答え”で満足せず、実際にどう語られ、どう見られているかを定点で確かめておく。合成と実測の役割をきちんと分けておくことが、AIをうまく使いこなす側に回るための、地味だけど効いてくる一歩になりますよ。