「テストの点が高いAIほど賢い」って、本当にそうなんですかね？

POINT この記事のポイント

「ChatGPTとClaude、どっちが上？」で毎回止まる理由

AIツールを導入しようとすると、ほぼ確実に出るのがこの問いですよね。各社は「うちが最高」と言いますし、ベンチマークの点数も並んでいます。

ただ、点数だけ見ても決めきれない。実運用に入ると、同じ上位モデルでも出力の安定感が違う場面があるからです。

このモヤモヤに正面から切り込んだのが、Microsoft Researchの「Physics of Language Models」シリーズです。

この連載は、2023年から継続して「AIの実力をどう測るべきか」を作り直しています。

要点はシンプルで、いまの性能ランキングは、試験設計を見ないと誤読しやすいという話なんですよ。

まず「ベンチマーク」ってのは、AI同士を比べる共通テストです。問題を解かせて正答率を出し、順位をつけるわけですね。

ところが、自然言語の問題だけで測ると、変数が多すぎます。語彙、文脈、言い回し、学習済みの既視感が混ざってしまう。

その結果、「本当に理解して答えたのか」「見覚えのある型に当てただけか」を切り分けにくいんですよね。

ここで厄介なのが、の疑いです。過去に見た題材が混ざると、点数が高くても実力評価としては弱くなります。

Physics of Language Modelsは、この問題を「試験の作り方」から変えたんです。

研究チームは、自然言語の代わりに「合成データ」を使いました。つまり、出題者が条件をすべて管理できるテストです。

さらに、問題生成にCFG（文法ルール）を使って、「この正解はどの構造理解から出たか」を追えるようにしています。

この設計だと、「構造理解で解いた」のか「単なるパターン一致」かを比較的きれいに見分けられるわけです。

物理実験のように、条件を一つずつ変えて因果を追う発想ですなぁ。

だからシリーズ名が「Physics of Language Models」なんです。

ここまで読むと、研究者向けの話に見えるかもしれません。ただ、実務ではむしろ重要です。

AI選定で見るべきは「どのモデルが何点か」だけではなく、「その点数がどんな測定条件で出たか」です。

とくに、ブランド文脈や業界用語が多い業務では、テスト設計が実データに近いかどうかで精度が変わります。

「うちの仕事で外さないか」を見るなら、順位表より評価条件です。ここを見ないと、導入後に「聞いていた話と違う」が起きやすい。

このシリーズは、その判断軸を作る土台になってくれるでしょうな。

ここまでを見ると、AIの性能比較で一番危ないのは、点数だけを見て「このモデルが強い」と決めてしまうことです。Physics of Language Models の一連の話が示しているのは、スコアは試験設計、データの作り方、失敗例の扱いとセットで初めて読める、ということなんですよね。

なので、ベンダー比較ではスコア表だけでなく、評価条件、再現条件、どんな失敗をしたかまで確認したいところです。社内検証でも、実業務に近い質問を数件固定して、同じ条件で複数モデルを反復測定するだけで、見た目のランキングに振り回されにくくなります。

次は、AIの内部に本当に構造理解があるのかを検証したこちらの記事へどうぞ。

出典

Zeyuan Allen-Zhu, Yuanzhi Li, “Physics of Language Models: Part 1, Learning Hierarchical Language Structures”, ICML 2023, arXiv:2305.13673
Physics of Language Models シリーズ全体（Part 1〜Part 4.1、全7本）: 公式サイト

関連記事