AIの本質 2026年5月25日

「AIの中にゴールデンゲート橋のつまみがある」ってどういうこと？

POINT この記事のポイント

Claude内部から約3400万特徴を見つけた話
出力だけでなく内部の偏りまで疑う判断軸

#AI基礎
#LLM
#解釈可能性
#AI安全性
#Claude

AIの中身って、どこまで見えるようになったのか

AIに質問すると、それっぽい答えが返ってきます。が、その答えが「なぜ出てきたのか」まで説明しようとすると、急にモヤモヤするじゃないですか。

このモヤモヤをよく「ブラックボックス」と呼ぶわけですが、最近はその箱を少しずつ開けようとする研究も進んでおります。

その代表例が、Anthropicの「Monosemanticity」シリーズです。Monosemanticityってのは、日本語にすると「単義性」ぐらいの意味で、ざっくり言えば、AIの内部にある「ひとつの意味に対応した特徴」を探す研究ですね。

で、この研究が面白いのは、単に「AIの中身を可視化しました」で終わらないところです。内部の特徴を見つけ、それを動かすと出力も変わる。つまり、AIの答えを作る「つまみ」みたいなものに近づいているんだそうな。

最初は4096個の「意味の単位」から始まった

まず出発点になるのが、Anthropicが2023年に公開した「Towards Monosemanticity」（R）であります。

この研究では、512ニューロンの1層Transformerから、Sparse Autoencoderという手法を使って、4096個の解釈可能な特徴を抽出しています。Sparse Autoencoderってのは、複雑な内部状態を、少数の意味ある部品に分解しようとする仕組みぐらいに考えるとよさそうです。

抽出された特徴には、DNA配列、法律用語、HTTPリクエスト、ヘブライ語テキスト、栄養表示など、かなりはっきりした意味カテゴリが対応していたんだそうな。こういう具体例が出てくると、急に「中身を見ている」感が増しますからね。

ここで大事なのは、個々のニューロンそのものではなく、特徴の組み合わせを分析単位にした点ですね。AIの中身を「1個の電球が1個の意味を持つ」みたいに見るのではなく、混ざった信号から意味の成分を取り出す発想になりましょう。

Claude 3 Sonnetでは、約3400万の特徴まで広がった

とはいえ、最初の研究は小規模モデルが対象でした。実務で使うAIに近い規模でも同じことができるのか、という疑問が残ります。

そこでAnthropicは2024年に「Scaling Monosemanticity」（R）を公開し、Claude 3 Sonnetの中間層から約3400万の特徴を抽出しました。前回の4096個から、約8000倍のスケールです。なかなかの巨大化ですね。

ここで見つかった特徴は、ただの単語ラベルではありません。ゴールデンゲートブリッジ、マイケル・ジョーダン、「欺瞞的行動」など、具体物から抽象概念まで幅広く対応していたと報告されています。抽象概念まで出てくるのが、なかなか面白いですなぁ。

さらに面白いのが、同じ概念が複数言語や画像でも共有される特徴として現れた点です。たとえば、英語だけでなく別言語の表現や画像入力にもまたがる「概念のまとまり」が見える、という話なんですよね。

つまみを動かすと、AIの振る舞いも変わる

この研究で有名なのが、ゴールデンゲートブリッジの特徴を人工的に強くすると、モデルの出力がゴールデンゲートブリッジ寄りに変わった、という実験です。

これ、比喩ではなく本当に「つまみを上げる」みたいな操作なんですよ。もちろん製品画面でユーザーが触れるつまみではありませんが、内部特徴の活性化を変えると、出力に因果的な影響が出るわけっすね。

となると、「AIはただ文章をそれっぽくつないでいるだけ」という見方も、少し雑になってきます。少なくとも内部には、概念や安全性に関係する特徴があり、それが出力に関わっている可能性が見えてきたわけですね。ここは軽く流せないところであります。

しかもAnthropicは、安全性に関係する特徴として、欺瞞、追従、バイアス、危険なコンテンツなども確認したと報告しています。ここが実務上はけっこう重要です。

回路を見ると、AIの「考え方のクセ」も見えてくる

さらに2025年の「Circuit Tracing」（R）では、特徴そのものだけでなく、特徴同士がどうつながって出力に至るかを追跡しています。

対象はClaude 3.5 Haikuで、内部計算の流れをAttribution Graphとして表現しております。Attribution Graphってのは、要するに「どの特徴がどの特徴に影響したか」をたどる地図みたいなものですね。

この研究では、いくつか興味深い例が出ています。翻訳タスクでは、中間層の概念表現が言語間で共有されていた。韻を踏む詩を書くときは、行を書く前に韻を踏む単語を先に選んでいた。加算では、近似計算と精密計算の複数経路を並列に使っていた、という具合です。

要するに、AIの出力は「次の単語を1個ずつ予測しているだけ」と説明されがちですが、内部ではもう少し複雑な準備や回路が動いているらしいんですよ。料理番組で「混ぜます」と一言で済ませている裏で、実は下ごしらえが10工程あるみたいな話ですね。そりゃ完成品だけ見てもわかりにくいはずですからね。

出力だけでなく、AIの“クセ”も見ていく

では、マーケターやブランド担当者にとって、この話は何の役に立つのか。

もちろん、現時点で企業が自社ブランドについて「AI内部の特徴」を直接点検できるわけではありません。Anthropicの研究も、一般ユーザー向けの計測機能ではなく、モデル理解と安全性研究のためのものです。

ただ、この流れを見ると、AIの回答を評価するときに「表に出た文章」だけを見れば十分、とは言い切れなくなります。Anthropicの研究がブランド評価を直接扱ったわけではないものの、出力の裏には、人物、場所、危険性、追従性、バイアスのような特徴が混ざっている可能性があるからです。

たとえば、AIがあるブランドを妙に安全寄りに語る、逆にリスクを強調しすぎる、競合と比べて特定の印象に引っ張られる。そういう現象があったとき、単なる文章の揺れではなく、内部表現や学習された関連づけの問題かもしれないわけですね。

そんなわけで、いま実務でできることはシンプルです。AIの回答を1回見て終わりにせず、複数の質問、複数のモデル、複数の文脈で見比べる。さらに、どのブランドが出たかだけでなく、どんな属性や印象と結びついているかまで記録する。

Monosemanticityの研究は、AIの中身が完全に読めるようになった、という話ではありません。ですが、「AIの答えはブラックボックスだから測れない」と諦めるには、もう少し早い。内部の特徴や回路まで研究対象になっている以上、ブランド側も出力の表面だけでなく、その背後にあるクセを疑って眺めるのがよさそうであります。

出典

Bricken et al. (Anthropic, 2023), “Towards Monosemanticity: Decomposing Language Models With Dictionary Learning”, Transformer Circuits Thread
Templeton et al. (Anthropic, 2024), “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”, Transformer Circuits Thread
Lindsey et al. (Anthropic, 2025), “Circuit Tracing: Revealing Computational Graphs in Language Models”, Transformer Circuits Thread