
허깅페이스가 7월 8일 언어모델 Smol 최신 버전인 SmolLM3을 발표했다. SmolLM3은 6개 언어의 다언어 지원 및 최대 12만 8,000토큰 장문에도 대응하며 하이컨텍스트 지원 모델로는 대폭 적은 파라미터 수로 최첨단 수준 성능을 구현하고 있다.
수천억~수조 개 훈련 파라미터를 가진 대규모 언어모델(LLM)은 더 높은 연산 성능을 발휘하고 더 나은 콘텐츠를 생성할 수 있지만 그만큼 막대한 계산 능력이 필수다. 한편 수백만에서 수십억 범위로 제한된 환경에서도 훈련이나 호스트가 가능한 AI는 소규모 언어모델(SLM)이라고 불린다.
허깅페이스 개발 커뮤니티는 개인용 PC에서 AI 모델을 구동하는 수요 증가로 인해 중요성이 높아지는 SLM 규모에서의 가능성을 한계까지 확장하는 소형 모델을 다수 만들어내고 있다. 7월 8일 허깅페이스가 출시한 SmolLM3은 SLM이면서도 성능에서 일부 LLM을 능가하는 성능을 발휘할 수 있다.
SmolLM3은 3B 파라미터 소형 모델이다. 3B는 AI 모델 규모를 나타내는 지표로 30억이라는 파라미터 수를 의미한다. 예를 들어 대규모 언어모델인 GPT-3는 1,750억, GPT-4는 수천억 이상 파라미터 수로 추정되며 30억 파라미터를 가진 SmolLM3은 소형 모델로 분류된다.
SmolLM3은 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어 6개 언어를 지원한다. 또 최대 12만 8,000토큰 장문에도 대응한다. 12만 8,000토큰은 영문으로 9만 6,000단어로 300~400페이지짜리 책 1권에 해당해 긴 문장 요약이나 대화 기록 보존 등에 뛰어나다. 최대 12만 8,000토큰은 GPT-4와 동등한 토큰 수로, SLM으로서는 놀라운 수치라고 할 수 있다.
벤치마크에서 SmolLM3은 같은 3B 모델인 알리바바 Qwen2.5 3B와 메타 Llama 3.2 3B를 일관되게 상회하며 더 대규모인 4B 모델인 Qwen3 4B와 단일 GPU에서 실행할 수 있는 중 역대 최고 대규모 언어모델’로 평가받은 구글 Gemma 3 4B Base와 대등한 성능을 발휘했다고 한다.
SmolLM3이 적은 파라미터로 높은 성능을 발휘하는 이유 중 하나가 3단계 학습이라는 훈련 프로세스다. 단계 학습이란 한 번에 모든 데이터세트를 학습시키는 게 아니라 학습 내용과 데이터 구성을 단계적으로 변경하면서 훈련하는 방법이다. SmolLM3에서는 1단계에서는 일반 상식과 자연어 기초를 습득하고 2단계에서는 프로그래밍 능력과 논리성을 강화하며 3단계에서는 수학과 코드에 더욱 중점을 두어 응용력을 강화하는 3단계 훈련을 실시하고 있다.
또 3B 모델 대부분이 500억~1,000억 토큰으로 훈련되는 반면 SmolLM3은 11조 2,000억이라는 훨씬 방대한 토큰을 학습하고 있으며 이 훈련에 사용된 토큰 수는 GPT-3도 3,000억 정도이므로 일부 대규모 언어모델도 크게 상회한다. 더구나 학습이 진행될수록 전문 데이터로 좁혀가는 3단계 학습을 사용해 효율적으로 학습해 SLM이면서도 고성능을 실현하고 있다는 것이다.
기타 특징으로 SmolLM3에는 /no_think와 /think라는 2가지 대화 모드가 있다. 예를 들어 계산 문제를 SmolLM3에 답변시킬 때 /no_think는 빠르게 답변하는 대신 계산 과정은 명시하지 않고 답만 제시한다. 반면 /think의 경우 /no_think보다 조금 시간이 걸리지만 이렇게 계산했기 때문에 이런 답이 나왔다고 이유를 명시해준다. 훈련의 중간 학습에서 단계적 추론 프로세스를 익히게 한 것도 SmolLM3이 높은 성능을 발휘할 수 있는 이유 중 하나다.
SmolLM3은 훈련 프로세스를 공개하고 있으며 합성 데이터 생성을 포함한 완전한 학습 레시피와 데이터세트도 추후 공개할 예정이다. 허깅페이스는 이 모델이 커뮤니티에 유용하며 다른 그룹이 이 레시피를 활용해 모델을 개선해 나가기를 기대한다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 제주창경, ‘대만 진출’ 프로그램‧경기 스타트업 서밋, 투자사 1:1 현장 밋업 참가 모집](https://startuprecipe.co.kr/wp-content/uploads/2025/07/250714_jnsec.kr_603406346-75x75.jpg)

