最近、競合のサービスをいくつか並べて、ChatGPTに「この中でうちの強みはどこ?」とか「おすすめ順に並べて」みたいに聞く人が増えてきたじゃないですか。へクス子の周りでも、提案資料を作る前にAIへ候補をバーッと貼り付けて、評価させてみる人をよく見かけるようになりました。
で、そうやって出てきた順位を、そのまま「AIの客観評価」として資料に載せたくなるわけですが、ここでふと不安になることがありまして。
同じ候補でも、貼り付ける順番を変えたら、答えも変わるんじゃないか?
という疑問です。一度くらい「あれ、さっきと順位違うぞ」と感じた方も多いんじゃないですかね。ところが、この「並べ方で結果が変わる」という現象、ちゃんと数字で測った研究がありまして、今回はそのへんを掘り下げてみたいと思います。
「並べ方で答えが変わる」ってどういうこと?
まず前提の言葉から整理しておきましょう。位置バイアスってのは、要は「候補をどの順番で見せるかで、AIの選び方が変わってしまう」って感じのクセです。本来なら中身で評価してほしいのに、置かれた場所で評価が動いてしまうわけですね。
人間でも、3つ並んだ選択肢の真ん中がなんとなく無難に見える、みたいなことはありますよね。AIにも似たような場所への引っ張られ方があって、それが推薦の安定性をじわじわ削るわけっすね。スーパーで真ん中の棚の商品をつい手に取ってしまうのと、案外似たような話であります。
問題は、この揺らぎがどのくらいの大きさなのか、です。「ほんの少し」なら無視できますしね。でも「無視できない」となると、AIに順位づけさせるという行為そのものを疑う必要が出てくるわけです。
RMITの研究チームが、並べ替えてブレ幅を測った
この点を正面から調べたのが、Ethan Bito らの研究(R)であります。LLaMA 3.3 70B という大型のAIに、映画と書籍の推薦をさせる実験を組んだんだそうな。
使ったのは2つの定番データセットで、ひとつは映画評価の MovieLens、もうひとつは Amazon の書籍評価データです。やったことはシンプルで、同じ候補集合を「並べ替えて」何度も推薦させ、結果がどれだけ一致して保たれるかを測りました。
このとき使った物差しが「一貫性スコア」でして、1.0なら並べ替えても順位がまったく変わらない、0なら毎回バラバラ、という指標だと思ってください。
で、結果がどうだったかと言いますと
候補リストが長くなるほど、一貫性がはっきり落ちていったわけです。
- 映画データ: 候補10件のとき一貫性0.67 → 候補30件で0.47(0.20ポイント、約30%の低下)
- 書籍データ: 候補10件のとき0.55 → 候補30件で0.47(約15%の低下)
つまり、AIに評価させる候補が増えるほど、「並べ方しだいで順位がブレる」度合いが大きくなるわけですね。10件くらいなら7割方は安定しているのに、30件まで増やすと、もう半分近くは順番に引きずられてしまう。候補を盛れば盛るほど、評価そのものが緩くなっていくということですね。
研究チームによれば、これはAIが長い入力の中ほどにある情報を取りこぼしやすい「ロスト・イン・ザ・ミドル」という現象とも地続きなんだそうな。並びの真ん中に置かれた候補ほど、存在を薄く扱われてしまうということでしょう。なんとも奥が深い話ですなぁ。
並べ方を工夫すると、ブレはかなり抑えられる
ここで悲観しすぎなくてもいい話もありまして、研究チームは RISE という聞き方の工夫も提案しております。これは候補を一度に丸ごと順位づけさせるのではなく、選んでは外し、を繰り返させるやり方です。
で、この聞き方に変えたところ、候補30件での一貫性が、映画データで0.47から0.69へ(標準的な聞き方比で約46%改善)、書籍データで0.47から0.65へ(約38%改善)まで戻ったんだそうな。
ポイントは、AIそのものを作り直したわけではなく、聞き方を変えただけでここまで安定したという点でしょう。裏を返せば、ふつうに「全部並べて順位つけて」と頼むやり方が、いかに順番に弱いかということでもありますからね。
結論: AIに順位づけさせるなら、並べ方を疑ってかかる
ここまでの話をまとめると、AIが出した「おすすめ順」を、そのまま客観的な評価として受け取るのは、少し危ういということになりましょう。同じ候補でも、貼り付けた順番という、中身と関係ない要素で順位が3割ほど動きうるわけですからね。
では、手元の作業で何を変えればいいか。大きくは2方向ですね。
ひとつは、順番を変えて複数回聞き、毎回同じ結論かを確かめること。一度の出力で「うちが1位だった」と喜ぶより、並びをシャッフルして数回試し、安定して上位かどうかを見る。これだけで、たまたま有利な並びを引いただけの結果に踊らされずに済みます。
もうひとつは、一度に評価させる候補を絞ること。30件まとめて順位づけさせるより、まず重要な5〜10件に絞るほうが、順番への揺らぎは小さく収まります。比較したい軸が多いときは、回数を分けたほうが結果は信頼できるわけですね。
AIに評価を任せる場面はこれからも増えていきますが、「並べ方ひとつで答えが動く」という前提を知っているだけで、出てきた順位の受け止め方はずいぶん変わるはずです。気になった方は、まず手元の候補をシャッフルして、AIに3回ほど聞き比べてみてくださいな。
出典
- Ethan Bito, Yongli Ren, Estrid He (2025), “Evaluating Position Bias in Large Language Model Recommendations”, arXiv:2508.02020, arXiv