AIは「同じ点数なら同じ性能」じゃなかったぞ！という研究の話

POINT この記事のポイント

「どれも高得点だから同じ」で選んでいませんか

AIツールを比較するとき、スコアが近いと「どれでもよさそう」に見えますよね。

ただ、実際に回してみると、同じ点数帯でも崩れ方が違うことがあります。要約は強いのに比較判断は弱い、みたいな差ですなぁ。

前回の記事で見たとおり、AIは内部で文構造を扱っています。今回は、その深さを左右する「設計差」を見ます。

対象は同じ Physics of Language Models（R）です。

焦点は、設計の違いが、実務でのミスの出方をどう変えるかです。

研究チームは、入れ子構造のデータで複数設計を比較しました。最初に差が出たのが、位置情報の扱いです。

「位置埋め込み」は、単語が文中のどこにあるかを伝える仕組みです。方式はざっくり2つで、「絶対位置」と「相対位置」です。

結果は明快で、相対位置方式（RoPE系）が絶対位置方式を上回る場面が一貫して見られました。

理由は直感的で、文の理解は「何番目か」より「何と何がつながるか」で決まるからです。

つまり、仕様書の細かい数値より、どの方式かを押さえるほうが判断に効くわけです。

次に意外なのがGPT型とBERT型の比較です。前後を同時に見られるBERT型のほうが有利に見えますが、結果は単純ではありません。

実験では、深い入れ子構造の理解でGPT型が優位になる条件が確認されました。制約があるぶん、構造を追わないと答えられないからです。

ここで重要なのは、「高機能に見える設計が常に強いわけではない」という点でしょうな。用途次第で勝ち筋が変わります。

ここまでを選定に落とすと、見るべきは平均点だけではありません。どこで崩れるか、つまりの型です。

同じ90点でも、比較質問に弱いモデルと長文条件分岐に弱いモデルでは、業務リスクが違います。自社の主要タスクで失敗傾向が合うかどうかを先に確認したいところです。

モデル選定で見るべきなのは、総合点の高さだけではありません。実務では、平均点が高いことより、重要な場面でどう崩れるか、崩れたときに人間が検知できるかのほうが効いてきます。つまり「一番賢そうなAI」ではなく、「自社の使い方で失敗しにくいAI」を選ぶ話なんですよね。

そのためには、候補モデルごとに実業務タスクを3〜5本ほど固定して、同じ条件で反復テストするのが現実的です。ベンダー比較でも、苦手条件、検証データの近さ、人間レビューの範囲を同じ質問票で聞くと、営業資料のきれいさではなく運用リスクで比べられます。

次は、推論タスクをどこまで任せてよいかを扱うこちらの記事へ進むと、選定基準をさらに詰められます。

出典

Zeyuan Allen-Zhu, Yuanzhi Li, “Physics of Language Models: Part 1, Learning Hierarchical Language Structures”, ICML 2023, arXiv
Physics of Language Models シリーズ全体（Part 1〜Part 4.1、全7本）: 公式サイト

関連記事