SakanaAI라는 곳에서 새로운 모델 병합 기술을 발표함

KonG

2025.09.04 15:04

2,071

M2N2는 세 가지 핵심적인 특징을 가지고 있습니다.

• 1) 병합 경계의 동적 조절 (유연한 병합 지점):
M2N2는 모델의 특정 부분을 미리 정해놓고 병합하는 대신, 모델 매개변수의 '분할 지점(split-point)'을 유연하게 조절하여 어느 부분을 어떻게 합칠지 알고리즘이 스스로 찾아냅니다. 이는 케이크를 어디든 원하는 대로 잘라 가장 맛있는 조각을 만드는 것과 같아서, 훨씬 더 넓은 범위의 조합을 탐색할 수 있게 해줍니다.

• 2) 다양성 유지 (자연의 경쟁 원리):
M2N2는 자연에서 자원 경쟁을 통해 다양한 종들이 살아남는 것처럼, 서로 다른 강점을 가진 고성능 모델들이 계속해서 존재하도록 경쟁을 유도합니다. 이는 특정 모델 하나만 너무 강해져 다른 유용한 모델들이 사라지는 것을 막고, 다양한 해결책을 탐색하여 더 나은 병합을 가능하게 합니다. 각 데이터 포인트는 모델들이 경쟁하는 '자원'이 됩니다.

• 3) 끌림 지표 (최적의 짝 찾기):
모델을 병합하는 것은 비용이 많이 드는 작업이기 때문에, 어떤 모델들을 합칠지 잘 선택하는 것이 중요합니다. M2N2는 '끌림 지표(attraction metric)'라는 것을 사용하여 서로의 약점을 보완해 줄 수 있는, 즉 '궁합이 잘 맞는' 모델 쌍을 찾아 병합합니다. 이는 마치 팀워크를 발휘할 수 있는 최고의 팀원들을 찾는 것과 같습니다.

(출처: 노트북lm 논문 요약)

LLM에서 쓸수도 있고, sdxl 기반 모델도 지원한다고 합니다

실제로 논문 내에서 일본어로 튜닝된 모델과 일반 영어 기반 모델을 병합한걸 연구 사례로 실어놨습니다

사실 비전공자라 뭔소리인지 모름

아무튼 알아두면 좋을 지식인거 같아서 가져왔습니다

심심하면 한번 읽어보세용

아 참고로 사카나AI는 xformer 논문 공동저자가 설립한 연구소라고 하네요