「AIって、ただ予測してるだけなんでしょ?」問題
ChatGPTを仕事で使っていると、ふとした瞬間に「これ、本当に意味をわかって答えてるのか?」という疑問が出てくるじゃないですか。文章は自然だし、こちらの意図もだいたい拾ってくれる。でも、仕組みの説明では「次の言葉を予測しているだけ」と言われるわけです。
へクス子もこの説明を聞くたびに、便利さと不安のあいだを行ったり来たりするんですよね。予測だけでここまで会話できるならすごい話ですし、逆に「それだけなら、どこで限界が来るんだ?」とも思います。
ところが、最近の脳科学と言語モデルの研究を見ると、この話は「予測だから浅い」と片づけられるほど単純ではないらしい。人間の脳も、言葉を理解するときにかなり予測を使っている可能性があるんですなぁ。
ただし、ここで大事なのは、自然な文章を作れることと、現実の顧客理解に使えることは別だという点です。ここを分けないと、なめらかな文章に判断を持っていかれます。
予測モデルは脳活動もかなり当てた
まず土台になるのが、MITのSchrimpfらがPNASに出した研究「The neural architecture of language」(R)です。数十のニューラルネットワーク言語モデルを、3つの神経データセットと1つの行動データセットにぶつけています。
ざっくり言うと、「どのAIモデルが、人間の脳や行動をいちばんよく予測できるか」を比べた研究です。
結果として、次単語予測タスクの性能が高いモデルほど、人間の脳活動もよく予測したんだそうな。しかも最良モデルは、データのノイズ上限に近いところまで予測精度を出していました。
次単語予測ってのは、「ここまでの文脈から、次に来る単語を当てる」タスクのことです。人間が文章を読むときも、無意識に次の展開を予想しているなら、AIの予測処理と脳の言語処理が一部重なるのはそこまで不思議ではありません。
ここだけ見ると、「じゃあAIは人間みたいに言葉を理解しているのか」と言いたくなります。が、話はそこで終わらないわけっすね。
自然な会話でも脳は先回りしていた
もう少し自然な場面を見たのが、KölblらのScientific Reports論文「Prediction, syntax and semantic grounding in the brain and large language models」(R)です。
この研究では、29名の参加者がドイツ語のオーディオブックを聞いているあいだ、EEGとMEGで脳活動を同時に記録しました。EEGは頭皮の電気活動、MEGは脳の磁場を測る方法で、どちらも「言葉を聞いた瞬間に脳で何が起きるか」を見るための道具です。
研究チームは、名詞・動詞・形容詞・固有名詞の4品詞について、脳活動のパターンとBERTモデルの予測性スコアを比べました。
面白いのは、名詞において、単語が始まる前から有意な前活性化が見つかった点です。さらに、BERTが「予測しやすい」と判断した名詞ほど、N400という脳波成分の振幅が低くなっていたんだそうな。
つまり、自然な発話を聞いている場面でも、人間の脳は次の言葉をかなり先回りしているらしいわけです。AIの予測スコアと脳活動が対応するなら、「予測」は人間の言語理解から遠いものではなく、むしろ中核の一部かもしれないということですね。
予測だけでは現実理解までは保証しない
なんですが、ここで「予測こそ理解のすべてである」と言い切ると、さすがに話が大きすぎます。風呂敷が東京ドームくらい広がるやつです。
そのブレーキ役になるのが、KriegerらのBrain Research論文「On the limits of LLM surprisal as a functional explanation of the N400 and P600」(R)です。
surprisalってのは、簡単に言えば「その単語がどれだけ意外か」を表す指標です。モデルが「この単語は来そう」と思っていればsurprisalは低く、「え、それ来るの?」という単語なら高くなります。
この研究では、LLM surprisalはN400とP600のどちらも一貫して説明できなかったと報告されています。小規模モデルは単語連想に引っ張られやすく、大規模モデルでも、段階的なもっともらしさや事象知識を十分には捉えられなかったようです。
こうして見ると、「AIの予測」と「人間の理解」は重なる部分がある。でも、完全に同じではない。AIの文章が自然でも、それが現実の顧客心理や利用状況まで理解している証明にはならないわけです。
結論: AI回答は「自然さ」と「根拠」を分けて使う
LLMの文章は自然に読めますが、その自然さは根拠の強さと同じではありません。脳の言語処理との近さが見えてきたとしても、AI回答をそのまま顧客理解や市場理解の代替にするのは飛びすぎでしょう。
実務では、顧客インタビュー原文、問い合わせログ、レビュー、購買データなどの一次情報をAI要約と並べて確認したいところです。AIには要約、分類、仮説出しを任せる。一方で、施策判断は実データや人間の評価で確認する。この分担にしておけば、「自然に読めるから正しい」という取り違えを避けやすくなります。
AIの内部で何が起きているかまで見たい方は、AIは「理解」しているのか、それっぽく返しているだけなのか?を続けて読むと判断軸が揃います。
出典
- Schrimpf, M. et al., “The neural architecture of language: Integrative modeling converges on predictive processing”, PNAS, 2021, リンク
- Kölbl, M. et al., “Prediction, syntax and semantic grounding in the brain and large language models”, Scientific Reports, 2026, リンク
- Krieger, K. et al., “On the limits of LLM surprisal as a functional explanation of the N400 and P600”, Brain Research, 2025, リンク