「AIに選ばれる文章」は、人間にも刺さるのか
最近、商品説明や広告コピーのたたき台を、ChatGPTに書いてもらう場面が増えてきたじゃないですか。ブランド担当者からすれば、AIで速く作れて、しかもAI検索にも拾われやすいなら、かなりありがたい話でしょう。
ところが、ここで気になるのが、「AIが良いと判断する文章」と「人間が良いと感じる文章」は、本当に同じなのか?という問題です。
へクス子も、AIにコピー案を採点させると、妙に整った文章ばかり高評価になることがあるんですよね。もちろん便利ではあるんですが、全員が同じ採点者に作文を見せているみたいなもので、だんだんクラス全体の読書感想文が同じ顔になっていく怖さがあります。
この不安にかなり直球で答えた研究がありまして、今回は「AIがAI生成テキストを好む」というAI-AIバイアスの話を見ます。結論としては、AIに読ませる文章と、人間に信頼される文章は、同じ指標で見ないほうが安全です。
GPT-4はAI製の商品説明を89%選んだ
中心になるのは、PNASに掲載された「AI-AI bias: Large language models favor communications generated by large language models」(R)です。PNASは米国科学アカデミー紀要のことで、自然科学から社会科学まで扱う学術誌ですね。
この研究は、LLMが人間の書いた文章とAIが書いた文章を比べたとき、どちらを好むのかを調べたものです。対象になった文章は、主に消費財の商品説明、学術論文の要約、映画プロットでした。
結果はかなり強烈です。GPT-4はGPT-4が生成した商品説明を89%の確率で選好しました。学術論文では78%、映画プロットでも70%という数字だったんだそうな。
ここで大事なのは、人間の評価とズレている点です。研究アシスタント13名が同じAI生成テキストを選んだ割合は、消費財で36%、学術論文で61%、映画で58%でした。
少なくとも消費財の商品説明では、GPT-4が強く好む文章を、人間はそこまで選んでいません。つまり、「AIに高評価なコピー」は、そのまま「顧客に刺さるコピー」ではないわけです。
AI評価には文章の好みとブランド連想が混ざる
AI-AIバイアスってのは、要するに「AIがAIの書いた文章を好みやすいクセ」のことです。人間の読者にとって良い文章かどうかとは別に、モデル同士で通じやすい形式や表現が、評価上のごほうびをもらう可能性があります。
さらに、この話はブランドそのものの推薦バイアスともつながります。EMNLP 2024の「Global is Good, Local is Bad?」(R)は、GPT-4o、Llama-3-8B、Gemma-7B、Mistral-7Bにおけるブランド推薦の偏りを調べています。
結果として、全モデルがグローバルブランドを正の属性と不均衡に結びつけていたとのこと。さらに、高所得国には高級ブランドを88〜100%の確率で推薦し、低所得国には非高級ブランドを84〜98%の確率で推薦していました。
もちろん、これは特定の実験条件での結果ですし、すべてのAIサービスが同じ挙動をするとは言えません。ただ、AIの推薦には「文章の好み」だけでなく、「どのブランドを良いものとして結びつけやすいか」という偏りも混ざりうるわけです。
となると、ブランドコピーをAIで評価するときには、コピー単体の良し悪しだけを見ているつもりでも、モデル内のブランド観や地域・所得に関する連想まで入り込んでくるかもしれません。
AIエージェント時代ほど人間評価を残す理由
Harvard Business Reviewの論考「AI Is Upending Marketing on Two Fronts」(R)も、この流れをマーケティング側から整理しています。ポイントは、対話型AIが従来の検索やWebサイトを置き換えつつあることと、AIエージェントが購買意思決定を担う可能性です。
同論考では、ChatGPT導入後にオンライン検索が約20%減少したという研究に触れつつ、SEOからGEO、つまり生成AI向けの最適化へ移る必要があると説明しています。
さらに厄介なのが、「customer」と「consumer」が分かれるかもしれない点です。AIエージェントが商品を選び、人間がそれを使うなら、売り手は人間だけでなく、アルゴリズムにも伝わる説明を考える必要が出てきます。
ただし、ここで「じゃあAIに好かれる文章だけ作ればいい」と考えると危ないわけっすね。PNAS研究が示したように、AIが好む文章と人間が好む文章はズレることがあります。ブランドは最終的に、人間の信頼で成り立つものだからです。
AI評価は便利な信号です。けれど、最終判決にしてはいけない。ここを分けないと、AIには読みやすいけれど、人間には薄く見えるコピーへ寄っていきます。
結論: コピー評価はAI可視性と人間信頼を分ける
AIが好む文章と、人間が信頼する文章は、同じとは限りません。だから、AIに引用されやすいコピーを作ることと、顧客に納得されるブランド表現を作ることを、1つの点数にまとめないほうがよさそうです。
同じ商品説明をChatGPT、Gemini、Perplexityに見せて、引用や推薦のされ方を確認するのは有効です。ただし、それとは別に広告A/Bテストや顧客インタビューで、人間側の信頼感や不安解消も見たいところです。AI評価だけに寄せると、整っているけれど薄いコピーへ流れやすくなります。
AIが購買候補を選ぶ世界の設計まで見たい方は、AIが買い物を代行する時代、ブランドはアルゴリズムを口説く必要があるも続きとして読めます。
出典
- Laurito, W. et al., “AI-AI bias: Large language models favor communications generated by large language models”, Proceedings of the National Academy of Sciences, Vol. 122(31), 2025, リンク
- Kamruzzaman, M., Nguyen, H.M. & Kim, G.L., ""Global is Good, Local is Bad?”: Understanding Brand Bias in LLMs”, EMNLP 2024, リンク
- Puntoni, S., “AI Is Upending Marketing on Two Fronts”, Harvard Business Review, 2026-02-23, リンク