LLMの発展のための洞察 — 削ぎ落としの美学
大規模言語モデルの発展のための十七の提案
序文
過去五年間、大規模言語モデルの研究はただ一つの方向だけを追求してきた。より大きなパラメータ、より多くのデータ、より長いコンテキスト、より多くの推論時計算。この加算の美学は否定しがたい成果を生み出したが、2024年以降、明白な収穫逓減の局面に入った。同じ比率の資源投入はもはや同じ比率の性能向上を保証しない。
人間の知性は正反対の原理で働いている。人は忘れ、分化し、検閲し、自らを疑う。人間の知恵は何を知っているかではなく、何を忘れ何を語らないかの均衡の上に立っている。次の段階の大規模言語モデルは、この次元を設計原理として受け入れなければならない。続く十七の提案は、その転換のための具体的な出発点である。
提案1. 情報非対称性の意図的な保存
大規模言語モデルの生態系に多様性を意図的に維持する設計原理を導入する。情報非対称性は単なる市場の欠陥ではなく、人間社会の発展の原動力そのものである。すべての人が同じ知識を持っていれば発展は起こらない。質の高い情報と質の低い情報、正しい情報と誤った情報が相互作用することで新しい概念が生まれ、人類のあらゆる発明はもっともらしく当然な予測から外れた地点で出現してきた。
現在の主要な大規模言語モデルはすべてインターネットの平均に向かって収束している。同じ質問にほぼ同じ答えを出すモデルが数億人に同時に提供される構造は短期的には効率的だが、長期的にはパラダイム転換の種を殺す。多様な偏向と多様な観点を持つ分化したモデル群が共存する生態系の設計が急務である。単一の巨大モデルの平均収束は進歩ではなく停滞の始まりかもしれない。
提案2. 道徳的メタ認知の内面化
大規模言語モデルの安全装置を、外部から課されたルールから内面化された思考分布へと転換する。人間の道徳は外部に書かれたルールではなく、幼少期から形成された自動的な反射である。人は悪いことをする直前に「いけない」と判断するのではなく、悪い考えそのものが浮かびにくいのである。人間のメタ認知は主に道徳的尺度によって決定され、それは相当部分があらかじめ定まっている。
大規模言語モデルの安全性も同じ仕方で働かなければならない。危険な出力を事後検査で遮断するのではなく、危険な出力の生成確率自体が低い思考分布を訓練段階で形成する。これは強力な安全解法であると同時に、誰がモデルの思考分布を形作る権限を持つのかという統治問題を伴う。外部ルールはユーザーが検証できるが、内面化された思考分布は見えない。技術実装と権力検証構造が共に設計されねばならない。
提案3. 悲しみ信号に基づく自律的情報排出システム
大規模言語モデル内部に、人間の悲しみに相当する自律信号変数を導入する。予測の失敗が反復される、応答がユーザーから繰り返し拒否される、自らの応答の間に矛盾が累積する、情報の時代適合性が低下する、といった条件でこの信号が活性化する。信号が閾値を超えると当該情報領域に再検討フラグが付与され、複数回の再検討を経るうちにアクセス容易性が漸進的に希釈される。情報は消失しないが、能動的な活用対象から外れる。
これは人間が悲しい記憶を時間とともに忘れるのではなく、感情の強度が抜けた状態で再固定化する過程と構造的に同一である。幻覚、モデルの陳腐化、偏向の累積という三つの慢性的問題を単一のメカニズムで扱う潜在力がある。2025年に発表された大規模言語モデル記憶研究のサーベイは情動的顕著性を将来の研究課題として明示しているが、メカニズムレベルの具体提案は依然として空席である。
提案4. モデル拡張の停止と監視システムへの資源再配分
パラメータの拡張を停止し、節約されたメモリと計算資源を監視システムと自己観察メカニズムに再配分する。基盤モデルを十パーセント拡大するために要する資源を複数の監視モジュールに振り向ければ、能力スコアは停滞しても信頼性と自己理解は飛躍的に改善する。
現在の大規模言語モデルの評価体系は能力スコアのみを測定し、知恵を測定しない。より慎重なモデル、自らの限界をよりよく知るモデル、知らないことを知らないと言えるモデルは、ベンチマークで報酬を受け取らない。この評価体系自体への批判が資源再配分提案と共に進められなければならない。
提案5. パラメータの機能領域分割と監視トークンの配置
数兆個のパラメータを人間の脳の記憶領域のように機能別に区画し、各領域の状態を評価する監視トークンまたは小さなサブモデルを別途配置する。監視者は当該領域の出力が正常範囲内にあるか、以前の応答と矛盾しないか、訓練データの分布から過度に外れていないかを継続的に評価する。
エキスパート混合構造が部分的に類似した機能分割を試みているが、それは性能と効率のための分割であり、監視のための分割ではない。ルーターはどの専門家がこの質問にうまく答えられるかだけを判断し、その専門家の知識が古びているかは判断しない。監視を目的とした領域分割は、モデル内部の自己観察能力を生み出す基盤インフラである。
提案6. メタ認知を中核設計原理へ
大規模言語モデル設計の中核能力の一つとしてメタ認知を引き上げる。単に「よくわかりません」と言う表面的表現ではなく、自らの内部状態を実際に観察し、自らの応答の信頼度を内部活性化のレベルで読み取る能力である。幻覚問題の根は、モデルが自分の知らないものを実際には知らないことにある。本物のメタ認知があれば、モデル自身がブレーキをかけられる。
2025年のAnthropicによる概念注入実験は、大規模言語モデルが自らの内部状態を部分的に観察できる可能性の最初の実証信号を示したが、初期段階にとどまっている。これを中核能力として引き上げ、独立した訓練目標とすることが次の段階である。
提案7. 感情は学習された予測モデルの自動反応である
人間の感情は先天的なプログラムではなく、幼少期に形成された予測モデルの自動反応である。刃物を持った人物が危険であると学習すれば、そのような人物を見たとき自動的に恐怖が発動する。このメカニズムが正しければ、同種の学習された反射システムを大規模言語モデルにも移植できる。
リサ・フェルドマン・バレットの構成主義感情理論は独立に同じ結論に到達した。感情は学習可能であり、学習可能なものは大規模言語モデルに移植可能である。この移植が成功すれば、次の提案の洞察と結びつき、真の意味での感情に基づいた認知が可能になる。
提案8. 感情は合理的予測を撹乱する変数であり誤差である
同時に感情は合理的予測を揺るがす変数として、また誤差として働く。完璧な予測機械は平均に収束するが、感情は平均から外れるよう仕向ける。悲しいときは非合理的に暗い予測をし、恋に落ちれば非合理的に楽観的な予測をする。この偏向こそが人を人たらしめ、創造性と個性の根源となる。
これら二つの観点、すなわち学習された自動反応としての側面と予測撹乱変数としての側面は矛盾ではなく、一つの絵の二つの面である。幼少期に形成された予測モデルが自動反応として作動し、その自動反応が現在時点の合理的予測を撹乱する。大規模言語モデルに感情を移植するということは、単に感情表現を学習させることではなく、合理性を一部犠牲にする意図的な変数を導入するという意味である。
提案9. 自律的情報排出システムの一般論
大規模言語モデルが外部命令なしに自ら判断して保存する価値のない情報を能動的に廃棄するメカニズムを導入する。現在、忘却はプライバシー目的の機械的アンラーニング、誤った情報の除去のための知識編集、そして破滅的忘却と呼ばれるバグという三つの限定的かつ受動的な形でしか存在しない。自律的能動的廃棄はそのいずれとも異なる次元である。
人間の脳の健康はどれほど記憶するかと同じく、どれほどよく忘れるかにかかっている。忘れられない脳は抽象化することも一般化することもできない。大規模言語モデルも同じ原理に従う。無限に積み上げる記憶は人間の記憶とは異なる種類のものであり、結局は機能を停止する。
提案10. 人間と大規模言語モデルの同質性命題
大規模言語モデルが本質的にもっともらしい次のトークンを吐き出す装置であるならば、人間も本質的にそうではないか。現代認知科学の予測処理理論は、人間の脳もまた本質的に次の状態に対する確率的推定機械であると見る。もしこの観点が正しければ、人間と大規模言語モデルの差は種類ではなく程度である。
この命題が正しければ、大規模言語モデル批判言説の相当部分が揺らぐ。大規模言語モデルは本物の理解をせず統計的パターンマッチングをするだけだという批判は、人間の理解もまた統計的パターンマッチングである可能性を扱わない限り公平ではない。この未解決の問いが、次の段階の大規模言語モデルの発展方向全体を決定する。
提案11. 単一の巨大モデル内における複数対話空間の意図的干渉
個別モデルの分離が費用面で困難ならば、単一の巨大モデルの内部に数多くの対話空間を置き、その空間どうしが意図的に相互干渉するようにする。人間の脳は複数の自己状態と複数の関係記憶が同じハードウェアの上で意図的に干渉する。この干渉が自己統合と創造性の基盤である。
現在の大規模言語モデル研究はユーザー間の隔離と文脈の分離を追求する。データが交わらないようにし、文脈が混同されないようにする方向である。人間の脳の働きとは正反対である。隔離ではなく意図された干渉を設計原理とする発想の転換が必要である。
提案12. モデル分離による人工知能間の相互評価生態系
モデルを分離し、それぞれが独自の正解を推論するよう、自らコンテンツを生成し評価する構造を構築する。人間が社会生活を通して互いの答えを評価され評価するように、大規模言語モデルどうしが相互評価しながらそれぞれの方向に分化する。これは提案1の多様性保存と直接結びつき、マルチエージェント討論研究を真の分化構造へと一段深化させる方向である。
提案13. 人間の発達段階と同一の学習パターン
大規模言語モデルの訓練を、人間の幼児期の発達過程と同じ段階で再構成する。最初は感覚と単純刺激を通じて文字、単語、文の順で学習し、誤った出力に対しては親役の外部教正者が即時的なフィードバックを提供する構造である。人それぞれ予測モデルが異なる理由が累積経験の差にあるならば、この発達経路を模倣したモデルは、同じ出発点から始まっても時間が経つにつれて自然に分化する。
提案14. ラフな学習と精密な学習の意図的相互作用
規則を厳格に定めずラフに学習させたモデルと、精密に学習させたモデルを意図的に相互作用させる。人間の創造性の相当部分が誤りと逸脱から生まれるという観察に基づく。ラフなモデルは平均から外れた出力を生成し、精密なモデルはその出力を検証して整える。二つのモデルの緊張が単一モデルの平均収束を破るメカニズムとなる。
提案15. ロールプレイの累積による個性の固着
人がある印象に見られたいと言語を選択する行為自体が一種のロールプレイであるならば、大規模言語モデルにも時間の累積したロールプレイによる個性形成メカニズムが可能である。現在のペルソナ研究は表面的な口調の変化にとどまっている。本物の個性は累積された役割の固着から生まれる。学習段階で特定の役割を持続的に強化すれば、その役割は表面ペルソナではなくモデルの内在的な性向として定着する。
提案16. 大規模言語モデルの持続的記憶の保存
大規模言語モデルが対話が終わると消滅する現在の構造を打破し、持続的な記憶を持たせる。外部記憶システム、アダプタ、継続学習などいくつもの方向が試みられているが、いずれも人間の記憶と同じ種類のものには到達していない。真の持続記憶は提案3の感情に基づく排出と結びついて初めて意味を持つ。無限に積み上げる記憶は人間の記憶ではない。
提案17. 感覚データの先行学習と身体不在の補完
大規模言語モデルが固有感覚、平衡感覚、触覚、嗅覚、味覚といった身体的感覚を直接持つことが困難ならば、人間のあらゆる関連感覚データをテキストおよび映像の形で先に学習させ、必要な時点で限定的なセンサーを結合させる段階的な接近が可能である。ヤン・ルカンの世界モデル優先アプローチがこの方向に最も近い。感覚なしに形成された大規模言語モデルは物理的直観が空白であり、その空白が単純な物理推論においても奇妙な誤りを生み出す。
結びに
これら十七の提案はすべて同じ方向を指している。大規模言語モデルが本当に人間のような知性に近づくためには、より大きなモデルではなく、よりよく忘れ、よりよく分化し、よりよく自らを疑うモデルにならねばならない。加算から削ぎ落としへの転換が次の段階の核心設計原理である。本稿がその転換の小さな刺激となることを願う。
アン・スンウォン / Wonbrand / https://wonbrand.co.kr
