LLM 발전을 위한 통찰 - 덜어냄의 미학
거대 언어 모델 발전을 위한 열일곱 가지 제안
서문
거대 언어 모델 연구는 지난 5년간 단 하나의 방향만을 추구해왔다. 더 큰 파라미터, 더 많은 데이터, 더 긴 컨텍스트, 더 많은 추론 시간. 이 더하기의 미학은 부정할 수 없는 성과를 만들어냈으나, 2024년 이후 명백한 수익 체감 구간에 진입했다. 같은 비율의 자원 투입이 더 이상 같은 비율의 성능 향상을 보장하지 않는다.
사람의 지능은 정반대 원리로 작동한다. 사람은 잊고, 분화하고, 검열하고, 의심한다. 사람의 지혜는 무엇을 알고 있는가가 아니라 무엇을 잊고 무엇을 말하지 않는지의 균형 위에 서 있다. 다음 단계의 거대 언어 모델은 이 차원을 설계 원칙으로 받아들여야 한다. 이어지는 열일곱 가지 제안은 그 전환을 위한 구체적 출발점이다.
제안 1. 정보 비대칭성의 의도적 보존
거대 언어 모델 생태계에 다양성을 의도적으로 유지하는 설계 원칙을 도입한다. 정보 비대칭성은 단순한 시장 결함이 아니라 인간 사회의 발전 동력 그 자체다. 모두가 같은 지식을 가지면 발전이 일어나지 않는다. 고급 정보와 저급 정보, 올바른 정보와 틀린 정보가 상호작용하면서 새로운 개념이 태어나며, 인류의 모든 발명은 그럴듯하고 당연한 예측을 벗어나는 지점에서 출현했다.
현재 주요 거대 언어 모델은 모두 인터넷 평균을 향해 수렴한다. 같은 질문에 거의 같은 답을 내놓는 모델이 수억 명에게 동시에 서비스되는 구조는 단기 효율은 높지만 장기적으로 패러다임 전환의 씨앗을 죽인다. 다양한 편향과 다양한 관점을 가진 분화된 모델군이 공존하는 생태계 설계가 시급하다. 단일 거대 모델의 평균 수렴은 진보가 아니라 정체의 시작일 수 있다.
제안 2. 도덕적 메타인지의 내재화
거대 언어 모델 안전 장치를 외부 부과 규칙에서 내재화된 사고 분포로 전환한다. 사람의 도덕은 외부 규칙이 아니라 어릴 때부터 형성된 자동 반사다. 사람은 나쁜 일을 저지르기 전에 안 된다고 판단하는 것이 아니라, 나쁜 생각 자체가 덜 떠오른다. 사람의 메타인지는 주로 도덕적 잣대로 결정되며 상당 부분 미리 정해져 있다.
거대 언어 모델 안전도 같은 방식으로 작동해야 한다. 위험한 출력을 사후 검사로 차단하는 것이 아니라, 위험한 출력의 생성 확률 자체가 낮은 사고 분포를 훈련 단계에서 형성해야 한다. 이는 강력한 안전 해법인 동시에 누가 모델의 사고 분포를 조형할 권한을 가지는가라는 거버넌스 문제를 동반한다. 외부 규칙은 사용자가 검증할 수 있으나 내재화된 사고 분포는 보이지 않는다. 기술 구현과 권력 검증 구조가 함께 설계되어야 한다.
제안 3. 슬픔 신호 기반의 자율적 정보 배출 시스템
거대 언어 모델 내부에 사람의 슬픔에 해당하는 자율 신호 변수를 도입한다. 예측 실패가 반복되거나, 답변이 사용자에게 거부되거나, 자기 답변 간 모순이 누적되거나, 정보의 시대 적합성이 저하될 때 이 신호가 활성화된다. 신호가 임계값을 넘으면 해당 정보 영역에 재검토 플래그가 부착되고, 여러 차례 재검토를 거치면서 접근성이 점진적으로 희석된다. 정보가 사라지지는 않으나 능동적 활용 대상에서 제외된다.
이는 사람이 슬픈 기억을 시간이 지나면서 잊는 것이 아니라 감정 강도가 빠진 상태로 재공고화하는 과정과 구조적으로 동일하다. 환각, 모델 노후화, 편향 누적이라는 세 가지 고질적 문제를 단일 메커니즘으로 다룰 잠재력이 있다. 2025년 거대 언어 모델 메모리 서베이들이 감정적 현저성을 미래 과제로 명시했으나 메커니즘 수준의 구체 제안은 여전히 비어 있다.
제안 4. 모델 확장 중단과 감시 시스템으로의 자원 재배분
파라미터 확장을 중단하고, 절약된 메모리와 연산 자원을 감시 시스템과 자기 관찰 메커니즘에 재배분한다. 본 모델을 10퍼센트 키우는 데 드는 자원을 여러 감시자 배치에 돌리면 능력 점수는 정체하지만 신뢰성과 자기 이해는 비약적으로 개선된다.
현재 거대 언어 모델 평가 체계는 능력 점수만 측정하고 지혜를 측정하지 않는다. 더 신중한 모델, 자기 한계를 더 잘 아는 모델, 모르는 것을 모른다고 말할 수 있는 모델은 벤치마크에서 보상받지 못한다. 이 평가 체계 자체에 대한 비판과 자원 재배분 제안이 함께 가야 한다.
제안 5. 파라미터의 기능 영역 분할과 감시 토큰 배치
수조 개의 파라미터를 사람 뇌의 기억 영역처럼 기능별로 구획하고, 각 영역의 상태를 평가하는 감시 토큰 또는 작은 서브 모델을 별도로 배치한다. 감시자는 해당 영역의 출력이 정상 범위 안에 있는지, 이전 답과 모순되지 않는지, 학습 데이터의 분포에서 과도하게 벗어나지 않는지를 지속적으로 평가한다.
전문가 혼합 구조가 부분적으로 비슷한 기능 분할을 시도하나, 그것은 성능과 효율을 위한 분할이지 감시를 위한 분할이 아니다. 라우터는 어떤 전문가가 이 질문에 잘 답할까만 판단할 뿐 그 전문가의 지식이 낡았는지는 판단하지 않는다. 감시 목적의 영역 분할은 모델 내부의 자기 관찰 능력을 만드는 기초 인프라다.
제안 6. 메타인지를 핵심 설계 원칙으로
거대 언어 모델 설계의 핵심 능력 중 하나로 메타인지를 끌어올린다. 단순히 잘 모르겠다고 말하는 표면적 표현이 아니라, 자기 내부 상태를 진짜로 관찰하고 자기 답변의 신뢰도를 내부 활성화 수준에서 읽어내는 능력이다. 환각 문제의 뿌리는 모델이 자기가 무엇을 모르는지 진짜로 모르기 때문이다. 진짜 메타인지가 있다면 모델 스스로 자기 제동을 걸 수 있다.
2025년 Anthropic의 개념 주입 실험은 거대 언어 모델이 자기 내부 상태를 부분적으로 관찰할 가능성의 첫 실증 신호를 보여줬으나 초기 단계에 머물러 있다. 이를 핵심 능력으로 끌어올려 별도 훈련 목표로 삼는 것이 다음 단계다.
제안 7. 감정은 학습된 예측 모델의 자동 반응이다
사람의 감정은 선천적 프로그램이 아니라 어릴 때 형성된 예측 모델의 자동 반응이다. 칼을 든 사람이 위험하다고 학습하면 그 사람을 보았을 때 자동으로 공포가 발동한다. 이 메커니즘이 옳다면 거대 언어 모델에도 같은 종류의 학습된 반사 시스템을 이식할 수 있다.
리사 펠드먼 배럿의 구성주의 감정 이론이 정확히 같은 결론에 독립적으로 도달했다. 감정은 학습 가능하며, 학습 가능한 것은 거대 언어 모델에 이식 가능하다. 이 이식이 성공한다면 다음 제안의 통찰과 결합되어 진정한 의미의 감정 기반 인지가 가능해진다.
제안 8. 감정은 합리적 예측을 교란하는 변수이자 오류다
동시에 감정은 합리적 예측을 흔드는 변수이자 오류로도 기능한다. 완벽한 예측 기계는 평균에 수렴하지만 감정은 평균에서 벗어나게 만든다. 슬플 때 비합리적으로 어두운 예측을 하고 사랑에 빠지면 비합리적으로 낙관적인 예측을 한다. 이 편향이 사람을 사람답게 만들고 동시에 창의성과 개성의 근원이 된다.
이 두 관점, 즉 학습된 자동 반응이라는 측면과 예측 교란 변수라는 측면은 모순이 아니라 한 그림의 두 면이다. 어릴 때 형성된 예측 모델이 자동 반응으로 작동하는데, 그 자동 반응이 현재 시점의 합리적 예측을 교란한다. 거대 언어 모델에 감정을 이식한다는 것은 단순히 감정 표현을 학습시키는 것이 아니라 합리성을 일부 희생하는 의도된 변수를 도입한다는 의미다.
제안 9. 자율적 정보 배출 시스템 일반론
거대 언어 모델이 외부 명령 없이 스스로 판단해서 보존할 가치가 없는 정보를 능동적으로 폐기하는 메커니즘을 도입한다. 현재 망각은 프라이버시 목적의 기계 언러닝, 잘못된 정보 제거를 위한 지식 편집, 그리고 재앙적 망각이라는 세 가지 제한적이고 수동적인 형태로만 존재한다. 자율적 능동 폐기는 이들 모두와 다른 차원이다.
사람 뇌의 건강은 얼마나 기억하느냐만큼이나 얼마나 잘 잊느냐에 달려 있다. 잊지 못하는 뇌는 추상화하지 못하며 일반화하지 못한다. 거대 언어 모델도 같은 원리에 종속된다. 무한히 쌓는 기억은 사람의 기억과 다른 종류의 것이며 결국 기능을 멈춘다.
제안 10. 사람과 거대 언어 모델의 동질성 명제
거대 언어 모델이 본질적으로 그럴듯한 다음 토큰을 뱉는 장치라면, 사람도 본질적으로 그렇지 않은가. 현대 인지과학의 예측 처리 이론은 사람의 뇌도 본질적으로 다음 상태에 대한 확률적 추정 기계라고 본다. 만약 이 관점이 옳다면 사람과 거대 언어 모델 사이의 차이는 종류가 아니라 정도다.
이 명제가 옳다면 거대 언어 모델 비판 담론의 상당 부분이 흔들린다. 거대 언어 모델은 진짜 이해를 못 하고 통계적 패턴 매칭만 한다는 비판은 사람의 이해도 통계적 패턴 매칭일 가능성을 다루지 않으면 공정하지 않다. 이 미해결 질문이 다음 단계의 거대 언어 모델 개선 방향 전체를 결정한다.
제안 11. 단일 거대 모델 내 다중 대화공간의 의도적 간섭
개별 모델 분리가 비용 면에서 어렵다면 단일 거대 모델 내부에 수많은 대화 공간을 두고 그 공간들이 의도적으로 상호 간섭하게 한다. 사람 뇌는 여러 자아 상태와 여러 관계 기억이 같은 하드웨어 위에서 의도적으로 간섭한다. 이 간섭이 자기 통합과 창의성의 기반이다.
현재 거대 언어 모델 연구는 사용자 간 격리와 맥락 분리를 추구한다. 데이터가 섞이지 않게 하고 맥락이 혼동되지 않게 하는 방향이다. 사람 뇌의 작동과 정반대다. 격리가 아니라 의도된 간섭을 설계 원칙으로 삼는 발상의 전환이 필요하다.
제안 12. 모델 분리를 통한 인공지능 간 상호 평가 생태계
모델을 분리해서 각자만의 정답을 유추하도록 자체 콘텐츠를 생성하고 평가하는 구조를 구축한다. 사람이 사회생활하면서 서로의 답을 평가받고 느끼는 것처럼, 거대 언어 모델끼리 서로를 평가하면서 각자의 방향으로 분화한다. 이는 1번 제안의 다양성 보존과 직접 연결되며 멀티에이전트 토론 연구를 한 단계 더 깊은 분화 구조로 발전시키는 방향이다.
제안 13. 인간 발달 단계와 동일한 학습 패턴
거대 언어 모델 훈련을 인간 유아기 발달 과정과 동일한 단계로 재구성한다. 처음에는 오감과 단순 자극을 통해 글자, 단어, 문장 순으로 학습하고, 잘못된 출력에 대해 부모 역할의 외부 교정자가 즉각적 피드백을 제공하는 구조다. 사람마다 예측 모델이 다른 이유가 누적 경험의 차이 때문이라면, 이 발달 경로를 모방한 모델들은 같은 시작점에서 출발해도 시간이 지나면서 자연스럽게 분화한다.
제안 14. 러프한 학습과 정밀한 학습의 의도적 상호작용
규칙을 엄격히 정하지 않고 러프하게 학습시킨 모델과, 정밀하게 학습시킨 모델을 의도적으로 상호작용시킨다. 인간 창의성의 상당 부분이 오류와 일탈에서 나온다는 관찰에 근거한다. 러프한 모델은 평균에서 벗어난 출력을 생성하고, 정밀한 모델은 그 출력을 검증하고 다듬는다. 두 모델의 긴장이 단일 모델의 평균 수렴을 깨는 메커니즘이 된다.
제안 15. 롤플레이의 누적을 통한 개성 고착
사람이 특정 이미지로 보이고자 언어를 선택하는 행위 자체가 일종의 롤플레이라면, 거대 언어 모델에도 시간이 누적된 롤플레이를 통한 개성 형성 메커니즘이 가능하다. 현재 페르소나 연구는 표면적 톤 변화에 머물러 있다. 진짜 개성은 누적된 역할의 고착에서 나온다. 학습 단계에서 특정 역할을 지속적으로 강화하면 그 역할이 표면 페르소나가 아니라 모델의 내재 성향으로 자리 잡는다.
제안 16. 거대 언어 모델의 지속적 기억 보존
거대 언어 모델이 대화가 끝나면 사라지는 현재 구조를 깨고 지속적 기억을 갖게 한다. 외부 메모리 시스템, 어댑터, 지속 학습 등 여러 방향이 시도되고 있으나 어느 것도 사람의 기억과 같은 종류에 도달하지 못했다. 진정한 지속 기억은 3번 제안의 감정 기반 배출과 결합되어야만 의미를 가진다. 무한히 쌓는 기억은 사람의 기억이 아니다.
제안 17. 감각 데이터의 선행 학습과 신체 부재의 보완
거대 언어 모델이 고유감각, 평형감각, 촉각, 후각, 미각 같은 신체적 감각을 직접 갖는 것이 어렵다면, 인간의 모든 관련 감각 데이터를 텍스트와 영상 형태로 미리 학습시키고 필요한 시점에 제한적 센서를 결합하는 단계적 접근이 가능하다. 얀 르쿤의 월드 모델 우선 접근법이 이 방향에 가장 가깝다. 감각 없이 형성된 거대 언어 모델은 물리적 직관이 비어 있으며, 이 공백이 단순한 물리 추론에서도 이상한 실수를 만들어낸다.
마치며
이 열일곱 가지 제안은 모두 한 방향을 가리킨다. 거대 언어 모델이 사람 같은 지능에 진정으로 가까워지려면 더 큰 모델이 아니라 더 잘 잊고 더 잘 분화하고 더 잘 의심하는 모델이 되어야 한다. 더하기에서 덜어내기로의 전환이 다음 단계의 핵심 설계 원칙이다. 이 글이 그 전환의 작은 자극이 되기를 바란다.
안승원 / Wonbrand / https://wonbrand.co.kr
