ChatGPTは算数を「丸暗記」で解いてるのか、中身を見てみよう

POINT この記事のポイント

AIは暗記じゃなく「隠れた段取り」で算数を解いてたらしい
間違いと訂正をセットで見せる学習が、正解だけより効いた

#AI
#ChatGPT
#LLM
#AIの仕組み
#推論

「AIなんて、結局それっぽく並べてるだけでしょ」

AIの導入を社内で話していると、まず出てくる声がこれじゃないでしょうか。「あれは意味をわかってるんじゃなくて、それっぽい単語を確率で並べてるだけだよ」というやつですね。

へクス子も、最初はわりとこの説に乗っかっていたクチなんですよ。とくに算数みたいに手順を踏む問題は、AIが答えのパターンを丸暗記してるだけじゃないの、と疑っておりました。

なんですが、もし本当にただの丸暗記なら、見たことのない問題はまるで解けないはずですよね。実際にはAIは初見の文章題もそこそこ解いてしまう。だとすると、あの頭の中では何が起きているのか。

この「暗記なのか、考えているのか」という問いに、自前で作った算数問題の実験で正面から答えた研究がありまして。今回はそのへんを掘り下げてみたいと思います。

「答えを知りようがない問題」をわざわざ作る

紹介するのは、Meta FAIR の Zeyuan Allen-Zhu さんらが進める「Physics of Language Models」というシリーズ研究です（R）。物理学が単純な実験から法則を見つけたように、AIの中身も条件をそろえた実験で解き明かそう、という発想なんですよね。

この研究のうまいところは、小学校レベルの算数の文章題を、わざわざゼロから大量に作った点であります。ネット上の問題を使うと、AIがどこかで答えを見ていた可能性が残りますが、その場で生成した問題なら「AIが事前に答えを知りようがない」と保証できる。だから解けたとしたら、それは暗記ではなくその場で解いた証拠だと言い切れるわけです。

「テンプレ暗記」では説明がつかなかった

で、調べてわかったのが、AIの解き方はテンプレートの丸暗記では説明がつかない、ということでした。

ここで言う「推論プロセス」ってのは、答えを出す前に頭の中で踏んでいる中間ステップのことです。研究チームがモデルの内部をのぞくと、AIは問題を読んだ時点で、答えにどの量が必要になるかを前もって見積もるような、隠れた段取りを組んでいたんだそうな。覚えた式をそのまま当てはめているのではなく、問題ごとに筋道を立てていたわけですね。

ただし、その筋道は人間の解き方とぴたり同じではありませんでした。人間なら使わない順序で量を準備していたり、その問題には要らない計算まで先回りで済ませていたり。材料を全部刻んでから献立を考える料理人みたいなもので、たどり着く先は合っていても、段取りはどうにも人間離れしているんですよ。

「間違い→訂正」を見せると、むしろ賢くなる

シリーズの続編では、この算数AIをどう鍛えれば精度が上がるのかを調べております（R）。で、ここで出てきたのが、なかなか意外な結果でして。

ふつうに考えれば、お手本はきれいな正解だけを見せたほうがよさそうですよね。ところが、学習データに「いったん間違えて、その直後に自分で直す」という流れをあえて混ぜておくと、正解だけで鍛えたときよりも推論の精度が上がったんだそうな。

しかも、大げさな仕掛けはいりません。「答えさせて、ダメ出しして、やり直させる」と何往復もする必要はなく、ふつうに次の文を予測させる学習のなかに訂正の例を紛れ込ませておくだけで効いた、というわけです。失敗例は無駄どころか、立派な教材だったんですからね。なんとも面白いですなぁ。

「考えてはいる、でも人間とは違う」

こうして2つの研究を並べると、ひとつの線が見えてきます。AIは「ただの丸暗記」ではないけれど、「人間と同じように考えている」わけでもない、ということなんですよね。

内部にはちゃんと推論の段取りがある。だから初見の問題もある程度こなせるわけです。でも、その段取りは人間の直感とはズレた、AIなりの癖を持っている。「賢い」と「人間っぽい」は、分けて考えたほうがよさそうでしょうな。

そして、この「考えてはいるが、考え方は違う」という距離感が、実は使う側の心構えに直結してくるわけです。

結論: AIの答えは「過程の見た目」ではなく結論で確かめる

では、この話がAIを仕事で使う側にとって何を意味するのか。持ち帰りは2つになりましょう。

ひとつめは、AIの出力を「考えた跡があるから正しいだろう」で受け取らないことですね。研究が示すとおり、AIは確かに筋道を立てております。ただ、その筋道は人間とは違う癖を持っていて、もっともらしい過程が正解を保証してくれるわけではないんですよ。

だから、見るべきは説明のなめらかさではなく、最後の結論が事実と合っているかどうか。とくに数字や固有名詞がからむ場面では、語り口が自然でも一度は突き合わせる、という構えが要るわけですね。

ふたつめは、AIに何かを直させるときのコツです。研究では「間違い→訂正」をセットで見せると精度が上がったんだそうな。これは日々の指示にもそのまま効いてきます。

「こう書いて」と正解だけを渡すより、「ここがこう違っていて、正しくはこう」と誤りと直し方をセットで返したほうが、AIは筋道を立て直しやすい。ダメ出しは、ぶつけて終わりにせず、直し方まで添えるのが得なんですよね。

AIが賢く見えるのは本当でしょう。ただ、その賢さは人間の延長線上にあるとは限りません。だからこそ、便利に頼りながらも、最後の結論は自分の目で確かめる。その地味な一手間こそが、AIと長く付き合うための土台になりますよ。