
엔비디아가 8월 18일 트랜스포머 아키텍처와 맘바 아키텍처를 결합한 하이브리드 추론 모델인 네모트론 나노2(Nemotron Nano 2)를 출시했다고 발표했다.
네모트론 나노2는 기존 언어 모델에서 광범위하게 사용되는 트랜스포머 아키텍처와 2023년 12월에 발표된 맘바 아키텍처 하이브리드 모델인 Nemotron-H를 기반으로 한다.
트랜스포머 아키텍처는 현재 주류 대규모 언어 모델 대부분에서 활용되고 있지만 시퀀스가 길어질수록 메모리와 계산 비용이 높아진다는 문제가 있다. 반면 맘바 아키텍처는 상태 공간 모델(SSM: State Space Model)을 통합해 시퀀스 길이에 대한 메모리나 계산 비용 문제를 피할 수 있다. 따라서 트랜스포머 아키텍처와 맘바 아키텍처를 결합해 긴 컨텍스트에서도 더 높은 처리량과 동등한 정확도를 달성할 수 있다는 것이다.
허깅 페이스에서는 가지치기(pruning) 전 베이스 모델인 Nemotron-Nano-12B-v2-Base, 가지치기 후 베이스 모델인 Nemotron-Nano-9B-v2-Base, 정렬 및 가지치기 후 모델인 Nemotron-Nano-9B-v2가 공개되고 있다.
단일 엔비디아 A10G GPU에서 실행 가능한 Nemotron-Nano-9B-v2는 복잡한 추론 벤치마크에서 동급 주요 오픈 모델인 Qwen3-8B와 동등 이상 정확도를 달성하며 최대 6배 처리량을 실현했다고 엔비디아는 보고했다.
수학, 과학, 코딩 등을 포함한 벤치마크에서 Nemotron-Nano-9B-v2는 더 뛰어난 성능을 발휘한다. 또 출력 시퀀스 길이(OSL)에 대한 입력 시퀀스 길이(ISL)별 처리량을 보면 Nemotron-Nano-9B-v2가 더 뛰어난 처리량을 달성하고 있으며 두 모델 차이는 시퀀스 길이가 증가할수록 커진다.
네모트론 나노2는 엔비디아 고유 오픈 모델 라이선스인 엔비디아 오픈 모델 라이선스(NVIDIA Open Model License)로 출시됐으며 개발자는 모델을 상업적으로 이용할 수 있을 뿐 아니라 파생 모델을 생성·배포할 수도 있다. 다만 개발자에게는 적절한 대안 없이 내장된 안전 메커니즘을 우회하지 않을 것과 재배포 시 출처 표시를 할 것 등의 조건을 준수할 것이 요구된다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 특별재난지역 49곳, 온누리상품권 환급 행사‧넥스텝, 3D 라이다 관제솔루션 출시](https://startuprecipe.co.kr/wp-content/uploads/2025/08/250822_Deeply_502305-75x75.jpg)

