「データ渡したのにAIが答えない」理由を分解した研究の話

POINT この記事のポイント

「うちの業界のこと、AIにどこまで任せられる？」

AI活用が進むほど、この問いは重くなりますよね。自社の商品情報や業界知識をAIに入れたのに、期待した答えが返らない。

へクス子も同じで、最初は「データを渡せば答えるだろう」と思っていました。ところが実務では、「知っているはずなのに出せない」が頻発します。

このズレを制御実験で分解したのが、Physics of Language Models Part 3（3.1〜3.3）です。

要点は、壁が3つあることでした。教え方、聞き方、そして容量です。

最初の発見はかなり実務的です。AIは、同じ情報でも表現のバリエーションがないと引き出し精度が落ちます。

研究では人工的な伝記データを使い、同じ事実を違う言い回しで何度も与えるかどうかを比較しました。

結果ははっきりしていて、単一表現だけだと精度が伸びない。言い換えや順序変更を混ぜると、引き出し精度が上がりました。

RAGで原文を1回入れて終わり、だと弱い理由はここにあります。要約版、FAQ版、箇条書き版のような多面提示が効くんですよね。

2つ目は、聞き方の方向です。順方向の質問には答えられても、になると性能が落ちる傾向が出ました。

たとえば「Aさんの出身大学は？」には答えられるのに、「東大出身の人は誰？」で崩れる、という型です。

この性質は、問い合わせ対応や商品推薦で地味に効いてくるんですなぁ。質問文が条件先行になる業務では、聞き方の設計を入れないと取りこぼしが増えます。

3つ目は容量です。Part 3.3では、パラメータ数と保持知識量の関係に上限則があることが示されています。

要するに「大きければ無限に覚えられる」わけではない。モデルサイズを上げれば容量は増えますが、コストと直結します。

なので、すべてをモデル本体に覚えさせる発想だけでなく、RAG構成や対象範囲の切り分けが重要になってくるでしょうな。

知識をAIに渡したのに答えられないとき、単純に「モデルが弱い」と決めつけるのは早そうです。今回の話を見ると、問題は知識量だけではなく、保存された表現と、ユーザーが聞く表現が噛み合っているかにもあります。

RAGや社内ナレッジ運用では、重要情報を1つの文章だけで登録せず、要約、FAQ、箇条書きなど複数の形で持たせるのが効きやすいでしょう。現場の質問で失敗が出たら、質問そのものを順方向の確認文に言い換えて再照会してみる。こうした地味な調整が、モデル変更より先に効く場面は多いはずです。

次は、アーキテクチャ進化が投資判断をどう変えるかを扱うこちらの記事へどうぞ。

出典

Zeyuan Allen-Zhu, Yuanzhi Li, “Physics of Language Models: Part 3.1, Knowledge Storage and Extraction”, arXiv:2309.14316, 2023
Zeyuan Allen-Zhu, Yuanzhi Li, “Physics of Language Models: Part 3.2, Knowledge Manipulation”, arXiv:2309.14402, 2023
Zeyuan Allen-Zhu, Yuanzhi Li, “Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws”, ICLR 2025, arXiv:2404.05405
Physics of Language Models シリーズ全体: 公式サイト

関連記事