대규모 모델 필적…美 스타트업이 선보인 AI

미국 AI 스타트업인 자이프라(Zyphra)가 AMD GPU 인프라로 학습한 소형 추론 언어 모델 자야1-8B(ZAYA1-8B)를 공개했다. 웨이트가 공개되어 있으며 상업적 이용도 가능하다.

자야1-8B는 모델 전체로서 80억 파라미터를 보유하면서도 추론 시 주로 사용하는 유효 파라미터를 7억으로 억제한 MoE(Mixture of Experts) 모델. 여러 전문가 네트워크에서 입력 내용에 맞는 일부만 호출하는 MoE 방식을 활용해 자야1-8B는 계산량을 줄이면서도 높은 추론 성능을 실현했다고 한다. 자이프라는 자야1-8B가 수학, 코딩, 복잡한 추론 태스크에서 대규모 모델에 근접한 성능을 발휘한다고 설명했다.

자야1-8B와 각종 대규모 모델을 AIME’25, HMMT’25 Feb, LCB-v6 25.02~25.05 추론 벤치마크로 비교해보면 자야1-8B는 AIME’25에서 88.3%, HMMT’25 Feb에서 82.7%, LCB-v6에서 65.0%를 기록했다. 마르코프형 RSA 추론 시 추가 계산을 더하면 각각 91.9%, 89.6%, 69.2%까지 향상된다. 유효 파라미터 7억, 전체 파라미터 80억이라는 소규모 MoE 모델임에도 대규모 모델에 근접한 점수를 내고 있음을 알 수 있다.

자이프라가 강조하는 건 유효 파라미터당 지능 밀도다. 일반적으로 파라미터 수가 클수록 성능이 높아지는 경향이 있지만 자야1-8B는 유효 파라미터를 10억 미만으로 억제하면서도 AIME, HMMT 등 수학 벤치마크, LCB 다시 말해 라이브코드벤치(LiveCodeBench) 코딩 벤치마크, GPQA-Diamond와 같은 지식·추론 벤치마크, IFEval 및 IFBench와 같은 지시 추종 벤치마크에서 경쟁력 있는 점수를 나타냈다. 자이프라는 미스트랄-스몰-4-119B(Mistral-Small-4-119B)처럼 훨씬 큰 공개 웨이트 모델을 일부 수학·코딩 평가에서 앞질렀다고 설명했다.

자야1-8B와 대규모 오픈소스 모델을 AIME’26, HMMT’26, LCB-v6, IFEval, GPQA-D 5가지 벤치마크로 비교해보면 자야1-8B는 AIME’26에서 89.1%, HMMT’26에서 71.6%, LCB-v6에서 64.8%, IFEval에서 85.6%, GPQA-D에서 71.0%를 기록했다. 비교 대상에는 아시-트리니티-미니(Arcee-Trinity-Mini), 엔비디아 네모트론 3 나노, 미스트랄-4-스몰, 인텔렉트-3이 포함됐으며 자야1-8B는 유효 파라미터 7억, 전체 파라미터 80억이라는 작은 구성으로 수학, 코드, 지시 추종, 전문 지식을 묻는 복수 평가에서 경쟁력 있는 결과를 보였다.

자야1-8B의 설계에는 효율화를 위한 3가지 구조가 탑재됐다. 첫 번째는 트랜스포머에서 계산 부하가 커지기 쉬운 어텐션 메커니즘을 효율화하기 위한 CCA(Compressed Convolutional Attention)다. 2번째는 MoE에서 전문가 네트워크를 선택하는 라우터에 MLP 기반 라우터를 채택한 점이다. 자이프라에 따르면 MLP 기반 라우터를 통해 선형 라우터보다 안정적인 전문가 선택이 가능해졌다고 한다. 3번째는 학습 가능한 잔차 스케일링으로 잔차 연결을 깊은 층까지 쌓으면 내부 표현 크기가 팽창하기 쉬워지기 때문에 학습 가능한 계수로 크기를 제어하는 방식이다.

자야1-8B는 입력 토큰이 임베딩(Embedding) 층을 통과한 뒤 RMSNorm, CCA, 셀프-어텐션(Self-Attention), MoE 라우터, 복수 MLP 전문가를 포함한 블록에서 처리되어 최종적으로 출력 토큰이 생성된다. CCA 내부 쿼리(Query), 키(Key), 밸류(Value) 처리 및 합성곱 처리가 확대 표시되어 있으며 효율적인 어텐션 메커니즘을 내장한 설계다.

자이프라에 따르면 자야1-8B는 사전 학습, 중간 학습, 지도 파인튜닝까지 AMD 인스팅트 MI300 계열 환경에서 실시했다. 학습에는 1024기의 AMD 인스팅트 MI300X 노드, AMD 펜산도 폴라라 인터커넥트, IBM과 구축한 커스텀 학습 클러스터가 사용됐다. 대규모 AI 모델 학습 환경에서는 엔비디아 GPU가 주목받기 쉽지만 자야1-8B는 AMD 스택으로 경쟁력 있는 추론 모델을 만들 수 있다는 걸 보여주는 사례로도 주목할 만하다.

자야1-8B는 사전 학습만으로 성능을 내는 게 아니다. 자이프라는 지도 파인튜닝 이후 추론 워밍업, 대규모 강화 학습, 수학과 코드에 특화된 강화 학습, 나아가 인간 피드백을 활용한 강화 학습(RLHF) 및 AI 피드백을 활용한 강화 학습(RLAIF)을 통해 채팅 품질과 동작을 개선했다고 설명했다. 자야1-8B에서는 검증하기 쉬운 수학이나 코드 같은 영역 외에 지시 추종 및 창의적 글쓰기에서도 개선이 확인됐다고 한다.

자야1-8B에서의 강화 학습 기반 사후 학습에 따른 성능 향상 비교에는 지도 파인튜닝 이후 점수와 강화 학습에 의한 추가 향상분이 표시되어 있으며 AIME’26, HMMT’26, IFEval, IFBench 등에서 큰 개선이 확인된다. 평균적으로 16.9포인트 점수 향상이 나타났다.

자야1-8B의 또 다른 핵심 기능이 마르코프형 RSA다. 마르코프형 RSA는 모델 웨이트를 늘리는 대신 답변 생성 단계에서 복수 후보를 생성하고 이를 통합해 정확도를 높이는 추론 시 추가 계산 일종이다. 자야1-8B의 마르코프형 RSA에서는 복수 추론 과정을 병렬로 생성하고 각 추론 과정의 말미만을 추출해 그 단편을 조합한 집약 프롬프트를 다음 추론에 활용한다. 긴 추론 과정을 통째로 다음 단계에 넘기지 않기 때문에 컨텍스트 길이 증가를 억제하면서 더 길게 사고할 수 있는 설계다.

마르코프형 RSA로 복수 추론 후보를 통합하는 절차를 나타낸 도식에 따르면 먼저 LLM이 추론 과정 N개를 생성하고 각 추론 과정에서 말미 부분을 추출한다. 다음으로 말미 N개 부분에서 C개씩 샘플링해 집약 프롬프트 N개를 작성하고 각 프롬프트를 다시 LLM에 입력해 새로운 추론 과정을 생성한다. 집약 프롬프트의 컨텍스트 크기가 제한되기 때문에 과거 추론 전체를 보유하지 않고 후보의 요점만을 이어받아 추론 질을 단계적으로 높이는 구조다.

자이프라는 마르코프형 RSA를 사용한 자야1-8B가 HMMT’25에서 클로드 4.5 소네트(Claude 4.5 Sonnet)와 GPT-5-High를 앞질렀다고 설명했다. 다만 마르코프형 RSA를 사용한 성적은 통상적인 1회 추론이 아닌 추가 추론 계산을 활용한 결과다. 자야1-8B의 강점은 항상 대규모 프런티어 모델을 대체한다기보다는 소형 모델에 추가 추론 시간을 부여해 수학이나 코드와 같이 검증하기 쉬운 문제에서 큰 성능 향상을 얻을 수 있다는 점에 있는 것으로 보인다.

마르코프형 RSA 내 엑스트라 하이 모드(Extra High Mode)를 이용한 추론 시 추가 계산 효과를 보면 자야1-8B는 추가 계산 없이는 APEX-쇼트리스트(APEX-Shortlist)에서 32.2%이지만 추가 계산을 단계적으로 늘려 최종적으로 51.8%에 도달했다. 이는 딥시크-V3.2 48.6%, GPT OSS 120B의 45.8%를 웃도는 결과다.

자야1-8B는 자이프라 클라우드(Zyphra Cloud) 서버리스 엔드포인트를 통해 이용할 수 있으며 모델 웨이트도 허깅 페이스에 공개되어 있다. 라이선스는 아파치 2.0으로 연구뿐 아니라 상업적 이용도 가능하다. 관련 내용은 이곳에서 확인할 수 있다.