x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

구글이 4월 2일 오픈 모델 군인 젬마 4(Gemma 4)를 공개했다. 이 모델은 제미나이 3(Gemini 3)과 유사한 기술을 기반으로 하며 고도의 추론과 자율적 에이전트 기능에 특화해 설계됐다. 이번 릴리스에서는 개발자 편의성을 고려해 라이선스를 기존 독자 형식에서 상업적으로 관대한 아파치 2.0(Apache 2.0)으로 바꿨다.

구글에 따르면 젬마는 초대 공개 이후 4억 회 이상 다운로드됐으며 10만 개를 초과하는 파생 모델이 생겨났다고 한다. 이번에 발표된 젬마 4는 엣지 디바이스부터 데스크톱 환경까지를 아우르는 4가지 크기로 구성되어 있다.

모바일이나 IoT(사물인터넷) 기기용으로는 파라미터 크기 20억인 이펙티브 2B(E2B), 파라미터 크기 40억인 이펙티브 4B(E4B)가 준비되어 높은 계산 효율과 메모리 효율을 구현했다. 이들 2개 모델은 디바이스상 배포에서 파라미터 효율을 최대화하기 위해 레이어별 임베딩(PLE)을 채택하고 있으며 더 효과적인 모델이 됐다. 더 대규모 작업용으로는 파라미터 크기 260억인 MoE 모델(26B)과 파라미터 크기 310억인 밀집(Dense) 모델(31B) 2종류가 있다.

26B 모델은 추론할 때 파라미터 중 38억만 활성화해 동규모 다른 모델을 상회하는 토큰 생성 속도를 달성했다. 31B 모델은 업계 표준인 아레나AI(Arena AI) 리더보드에서 세계 3위 오픈 모델로 순위가 매겨졌다. 26B 모델도 6위를 획득했으며 자신의 20배 이상 규모를 가진 모델에 필적하는 성능을 보였다고 한다. 이를 통해 개발자는 적은 하드웨어 리소스로 최첨단 AI 기능을 활용할 수 있다는 설명이다.

기능 면에서는 다단계 계획 수립과 논리 사고가 대폭 강화됐으며 수학 및 지시 추종 벤치마크에서 높은 점수를 기록했다. 자율형 에이전트 구축을 지원하기 위해 함수 호출, 구조화된 JSON 출력, 네이티브 시스템 지시에 표준으로 대응했다. 코드 생성 능력도 높으며 대규모 모델을 구동할 수 있는 하드웨어가 있으면 로컬의 오프라인 환경에서도 고품질 코드 생성이 가능하다.

젬마 4는 전 모델이 이미지와 비디오를 처리할 수 있는 멀티모달 기능을 갖추고 있으며 OCR과 그래프 이해에서 뛰어난 정확성을 발휘한다. 엣지용 E2B와 E4B는 음성 입력도 지원하고 있으며 디바이스상 음성 인식과 이해가 가능하다. 젬마 4는 140개 이상 언어에 대응하고 있으며 글로벌 애플리케이션 개발을 뒷받침한다.

문맥을 이해하는 컨텍스트 윈도우는 엣지 모델에서 12만 8,000토큰, 대형 모델에서 최대 25만 6,000토큰까지 처리할 수 있다. 이는 로컬 모델로서는 드문 길이로 대규모 소스 코드나 긴 문서를 한 번에 읽어 들이는 운영에 적합하다.

그 중에서도 26B 모델과 31B 모델은 연구자와 개발자가 개인 PC 환경에서도 최첨단급 추론 성능을 오프라인으로 다룰 수 있도록 한 대형 모델. 비양자화 bfloat16 버전에서도 80GB 엔비디아 H100 GPU 1장으로 동작하도록 설계됐으며 양자화 버전이면 일반적인 소비자용 GPU에서도 로컬 실행이 가능하다. 26B 모델은 추론할 때 파라미터 260억 중 38억만을 유효화해 저레이턴시와 고속 토큰 생성을 중시하고 있으며 한편 31B 밀집 모델은 속도보다 출력 품질을 우선하며 추가 학습이나 용도 특화 튜닝 토대로 사용하는 게 상정되어 있다.

이에 비해 E2B와 E4B는 모바일 기기나 IoT 기기용으로 설계됐으며 퀄컴, 미디어텍, 구글 픽셀 팀과의 협력을 통해 스마트폰, 라즈베리 파이, 젯슨 오린 나노(Jetson Orin Nano) 등에서 저메모리 및 저지연으로 동작하도록 최적화됐다 구글은 이들 모델이 차세대 제미나이 나노 4( 기반이 되기도 한다고 설명했으며 안드로이드용 로컬 AI 기능 강화로도 이어질 것으로 보인다.

또 구글은 젬마 4 릴리스에 맞춰 기존 라이선스 체계를 근본적으로 재검토하고 지금까지 모델에 채택됐던 독자 커스텀 라이선스를 폐지하며 업계에서 광범위하게 보급된 아파치 2.0 라이선스로 전면적으로 전환했다. 이 변경은 개발자 커뮤니티 피드백을 반영한 것이며 AI 미래를 구축하기 위한 공동 접근을 중시하고 제한적 장벽을 제거하는 걸 목적으로 한다는 설명이다.

실제로 이전 젬마 3 등에서 사용되던 커스텀 라이선스는 많은 개발자에게 제약이 너무 많은 것이었다. 구글이 일방적으로 업데이트 가능한 엄격한 금지 사항이 포함되어 있었을 뿐 아니라 젬마 기반 모든 프로젝트에서 구글 규칙을 강제로 적용시킬 필요가 있었다. 더구나 젬마가 생성한 합성 데이터를 사용하여 작성된 다른 AI 모델에까지 라이선스가 계승된다고 해석할 수 있는 조항도 존재했으며 개발자가 구글의 오픈 모델을 채택할 때 커다란 심리적 장벽이 되고 있었다.

새롭게 채택된 아파치 2.0은 상용 이용에서도 매우 관대한 오픈소스 라이선스다. 과도한 이용 약관이나 상용 제한이 존재하지 않으므로 개발자는 자신의 데이터, 인프라, 모델에 대해 완전한 제어권을 갖는 디지털 주권을 확보할 수 있다. 또 향후 구글이 일방적으로 라이선스 조건을 변경하는 것도 불가능하므로 개발자는 장기적인 안심감을 가지고 자사 프로젝트에 기술을 탑재할 수 있다. 라이선스 쇄신으로 온프레미스나 클라우드를 막론하고 모든 환경에서 자유롭게 모델을 구축하고 안전하게 배포하는 게 가능해졌다.

허깅페이스 CEO인 클레망 들랑주(Clément Delangue)는 이 변경을 커다란 이정표로 높이 평가하며 젬마 4 패밀리를 전면적으로 지원하겠다고 표명했다. 구글은 개발자에게 데이터와 배포 계획의 관리 권한을 위임해 젬마를 활용한 혁신적 연구와 제품이 더 확대될 것으로 기대하고 있다.

젬마 4는 구글 AI 스튜디오에서 31B 모델과 26B 모델에 접근할 수 있으며 구글 AI 엣지 갤러리에서 E4B 모델과 E2B 모델에 접근할 수 있다. 또 허깅페이스에서 모델이 배포되고 있으며 캐글과 올라마에서도 모델 가중치를 획득할 수 있다.

구글은 또 제미나이 API에 플렉스(Flex)와 프라이어리티(Priority) 2가지 서비스 티어를 추가했다고 발표했다. 이를 통해 백그라운드에서 처리하는 작업과 챗봇처럼 높은 신뢰성이 요구되는 대화형 작업에서 API를 구분해 사용하고 비용과 신뢰성의 균형을 맞추기가 수월해졌다고 어필했다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post