AIモデルは「大きければ勝ち」なのか？スケーリング則を見てみよう

POINT この記事のポイント

性能は伸びるが、伸び方には条件があるという話
モデル名よりデータ量と用途を見る判断軸づくり

#AI基礎
#LLM
#スケーリング則
#AI評価
#モデル選定

「最新AIなら安心」で決めたくなる問題

AIツールを選ぶとき、「最新モデルを使っています」とか「パラメータ数が大きいです」と言われると、なんとなく安心したくなるじゃないですか。

へクス子も比較表にモデル名が並んでいると、つい新しいほうに目が行くんですよね。

ところが、AIの性能ってのは「大きければ勝ち」で片づくほど単純ではありません。大きさは大事なんですが、データ量や計算予算との組み合わせで、効き方がかなり変わるわけです。

このへんを整理するうえで役に立つのが、「スケーリング則」という考え方であります。今回はOpenAI、DeepMind、Google Researchらの研究をもとに、AIモデルの大きさをどう見ればいいのかを掘り下げてまいります。

AIは大きくすると、かなり素直に伸びる

まず出発点になるのが、OpenAIのKaplanらが2020年に出した「Scaling Laws for Neural Language Models」（R）であります。

この研究では、言語モデルの損失が、モデルサイズ・データセットサイズ・学習計算量に対して「べき乗則」に従うことが示されております。べき乗則ってのは、ざっくり言えば「大きくすればするほど、かなり規則的に性能が伸びる」という関係のことですね。

具体的には、7桁以上にわたるスケールで一貫した関係が見つかっています。モデルサイズのスケーリング指数は約0.076、データセットサイズは約0.095と報告され、大きなモデルほど少ないデータで同等の損失に到達しやすい、という結果も出たんだそうな。

で、この発見がすごかったのは、「AIの性能向上は運任せではなく、かなり予測できるかもしれない」と示した点でしょう。モデルを大きくしたら何が起きるのかを、経験則として見積もれるようになったわけですね。なかなか面白いですなぁ。

でも、大きいだけでは訓練不足になる

なんですが、この話にはすぐ重要な修正が入りました。DeepMindのHoffmannらが2022年に発表したChinchilla論文「Training Compute-Optimal Large Language Models」（R）であります。

この研究では、70Mから16Bパラメータまでの400以上の言語モデルを、5Bから500Bトークンで体系的に訓練しております。トークンってのは、AIが文章を処理するときの小さな単位で、日本語なら文字や単語のかけらに近いものですね。

で、結果がどうだったかと言いますと、計算予算が同じなら、モデルサイズとトークン数をだいたい等比で伸ばすべきだと報告されています。モデルを2倍にするなら、学習データ側も2倍にする、という発想になりましょう。

実際、この方針で訓練したChinchillaは70Bパラメータでしたが、4倍大きいGopherの280Bパラメータを含む既存モデルを、広い範囲の評価タスクで上回ったんだそうな。

大きいモデルを作っても、十分なデータで鍛えなければ「体だけ大きい新人」みたいになってしまいます。名刺の肩書きは立派だけど、現場経験が足りない人に似ているでしょう。

伸び方には「ノイズ」と「表現力」の限界がある

さらに、Google ResearchとJohns Hopkins UniversityのBahriらは、2024年のPNAS論文「Explaining Neural Scaling Laws」（R）で、なぜこうしたスケーリング則が出るのかを理論的に説明しようとしております。

ここから少し抽象度が上がるんですが、実務に戻すとけっこう効いてくる話であります。

この研究では、スケーリングの起源を大きく2つに分けております。

ひとつは、有限サンプルの統計的ノイズに由来する「variance-limited」。もうひとつは、モデルの表現能力の限界に由来する「resolution-limited」だそうな。

言い換えると、「データが少ないせいでブレている」のか、「モデルが世界を十分細かく表現できていない」のかで、伸び方が変わるということですね。

同じ性能不足でも、足すべきものがデータなのか、モデル能力なのかは違うわけっすね。

ここは実務でも大事なところです。へクス子もAIツールの回答が弱いとき、すぐ「もっと強いモデルに変えよう」と考えたくなります。

が、実際には評価データが偏っていたり、用途に合う文脈が足りていなかったりする可能性もあるんですよ。モデル変更で解決する問題なのか、入力や評価設計を見直す問題なのかを分けたいところでしょう。

ブランド調査では「モデル名」だけを見ない

では、マーケターや事業責任者は、この話をどう使えばいいのか。ポイントは、AIツールの性能説明を「モデル名の強さ」だけで判断しないことですね。

もちろん、スケーリング則は主に訓練時の一般法則であって、個別ツールの良し悪しをそのまま決めるものではありません。ここから先は、直接の実証ではなく、評価設計への示唆として読むのが安全でしょう。

ただ、ブランド調査でAIを使う場合、欲しいのは「一般的に賢い回答」ではなく、自社の業界・顧客・比較対象に対して筋のよい回答です。だからこそ、一般性能と用途別評価を分ける必要があるということですね。

自社ブランドをAIに聞くなら、少なくとも次の3つは分けて見るのがよさそうです。

どのモデルを使っているか
どんなデータや文脈を与えて評価しているか
その用途で、どの指標を良し悪しとして見ているか

モデル名より用途別の検証条件を見る

スケーリング則を見ると、AIは大きくすれば伸びやすい、という大きな方向性はたしかにあります。ですが、Chinchillaが示したように、モデルサイズとデータ量のバランスが崩れれば効率は落ちますし、伸び悩みの理由もデータ不足なのか表現力不足なのかで変わります。つまり、「最新モデルだから安心」だけでは、かなり雑な判断になるわけです。

AIツールを選ぶときは、モデル名の派手さよりも、その用途でどんなデータを使い、何を評価し、どこまで検証したのかを見るほうが実務に効きます。自社ブランド調査なら、一般性能ではなく、自社カテゴリ、顧客文脈、比較対象に対して筋のよい回答が出るかを確認したいところです。

そんなわけで、比較表を見るときは「どのAIか」だけで止めず、「どんなデータで、何を測って、どこまで検証したのか」までセットで眺めてみてくださいませ。

出典

Kaplan et al. (2020), “Scaling Laws for Neural Language Models”, arXiv
Hoffmann et al. (2022), “Training Compute-Optimal Large Language Models”, arXiv
Bahri et al. (2024), “Explaining Neural Scaling Laws”, PNAS