AMD, 독자 개발한 추론 모델 공개했다

AMD가 AMD GPU만으로 훈련했다는 언어 모델 Instella-Math를 발표했다. 파라미터 수는 30억 개로 추론이나 수학적 문제 해결 등에 특화되어 있다고 한다.

Instella-Math는 AMD Instinct MI300X GPU 32대를 사용해 훈련된 모델. AMD에 따르면 AMD GPU만을 사용해 긴 사고 연쇄(long chain-of-thought) 강화학습을 수행한 언어 모델은 이게 처음이라고 한다.

Instella-Math는 완전히 오픈된 추론 언어 모델로 아키텍처, 훈련 코드, 가중치, 데이터셋이 모두 공개되어 있다. 베이스 모델인 Instella-3B-Instruct나 지도학습 파인튜닝(SFT) 데이터도 완전히 오픈되어 있어 누구나 모델을 검사, 사용, 수정 또는 구축할 수 있다.

AMD는 Instella-3B-Instruct 모델 추론 능력을 단계적으로 향상시키기 위해 2단계 지도학습 파인튜닝 프로세스를 실시했다고 한다. 1단계에서는 수학 능력의 커버 범위를 강화하기 위한 튜닝을 진행했고 2단계에서는 수학 올림피아드 수준 문제에 대처하기 위한 추론 단계를 생성하는 능력을 모델에 부여했다.

이런 훈련 결과 Instella-Math는 Deepseek-R1-Distilled-Qwen-1.5B, Still-3-1.5B, DeepScaleR-1.5B, SmolLM3-3B 등 오픈 웨이트 모델에 필적하는 성능을 발휘했다고 한다. AMD는 모든 벤치마크에서 경쟁력 있는 평균 성능을 달성할 뿐 아니라 자사 훈련 기법이 지닌 유효성을 보여준다고 전했다.

AMD는 많은 경쟁 모델이 오픈 웨이트에 한정되어 있으며 베이스 모델 훈련이나 추론 증류 프로세스는 비공개로 남아 있지만 Instella-Math는 완전히 오픈된 언어 모델로 베이스 모델, 추론 SFT, 강화학습 단계 훈련 데이터도 모두 오픈되어 있다고 밝혔다. 이어 Instella-Math는 AMD GPU로 훈련된 첫 완전 오픈 수학 추론 모델로 AMD 오픈 이노베이션에 대한 약속 일환으로 자사는 모델 웨이트, 훈련 설정, 코드베이스, 데이터셋을 공유해 AI 커뮤니티에서의 협업, 투명성, 진보를 촉진한다고 밝혔다. 각종 데이터는 허깅페이스에 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.