x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

스위스 연방공과대학교 로잔캠퍼스(EPFL), 스위스 연방공과대학교 취리히캠퍼스(ETHZ), 스위스 국립 슈퍼컴퓨팅센터(CSCS)가 공동 개발한 어퍼터스(Apertus)가 출시됐다. 어퍼터스는 투명성과 디지털 주권을 중시하며 학습 데이터와 코드가 모두 공개된 대규모 언어모델(LLM)로 1,000종류 이상 언어에 걸친 15조 토큰으로 훈련됐다.

어퍼터스는 라틴어로 열린을 의미하는 단어로 신뢰성이 높고 세계적으로 통용되는 완전히 오픈된 모델 개발을 목표로 하는 스위스 국가 프로젝트 일환으로 개발됐다. 모델 가중치 뿐 아니라 아키텍처, 학습 데이터, 학습 프로세스, 나아가 중간 체크포인트에 이르기까지 아파치 라이선스 2.0 하에 공개되고 있다. ETHZ 연구과학자이자 어퍼터스 개발 프로젝트 기술 리더인 이마놀 슈라그는 어퍼터스는 공공 이익을 위해 구축됐다며 이 규모에서 완전히 오픈된 LLM은 적으며 다언어 지원, 투명성, 컴플라이언스를 기본 설계 원칙으로 구현한 첫 LLM이라고 밝혔다.

어퍼터스는 15조 토큰이라는 방대한 데이터로 학습됐으며 그 중 40%가 비영어 콘텐츠다. 학습 데이터는 1,800개 이상 언어를 망라하고 있으며 스위스독일어나 로만슈어 같이 지금까지 LLM에서 잘 다뤄지지 않았던 언어도 포함되어 있다. 이런 다언어성으로 인해 다양한 언어와 문화권에서의 응용이 기대되고 있다.

어퍼터스는 80억 파라미터 모델(8B)과 700억 파라미터 모델(70B) 두 종류가 제공된다. 학습에는 CSCS가 운용하는 슈퍼컴퓨터 알프스(Alps)가 활용됐다. 또 학습 데이터의 축어적 기억(verbatim memorization)을 억제하기 위해 골드피시 오브젝티브(Goldfish objective)라고 불리는 기법을 채용하고 대규모 학습을 안정화시키기 위한 새로운 활성화 함수 xIELU와 옵티마이저 AdEMAMix 등 기술적 혁신도 도입됐다.

또 어퍼터스 개발에서는 스위스의 데이터보호법이나 저작권법, EU AI법이 정한 투명성 의무가 고려된 게 포인트다. 학습에는 일반에 공개된 데이터만이 사용됐으며 웹사이트 운영자에 의한 AI 크롤러 옵트아웃 요구를 과거로 소급해서 존중하는 구조가 도입됐다. 더 나아가 개인정보나 유해한 콘텐츠는 학습 시작 전에 제거되는 등 데이터 완전성과 윤리 기준에 세심한 주의가 기울여졌다.

학습 후 모델은 대화 형식 지시에 따르는 능력을 높이기 위한 지도 파인튜닝(SFT)과 인간 선호나 가치관에 맞는 응답을 생성하기 위한 얼라인먼트 조정이 실행된다. 논란이 될 수 있는 주제에 대해서는 스위스 헌법상 가치관을 반영한 스위스 AI 헌장에 기반해 응답을 조정하는 접근법이 채택됐다. 이 헌장은 중립성이나 합의 형성, 연방주의, 다언어주의, 문화적 다양성 존중 같은 스위스 헌법상 가치관을 AI 원칙으로 정리한 것. 실제로는 LLM-as-judge(판사로서의 LLM)라고 불리는 별도 LLM이 이 헌장을 평가 기준으로 응답을 1~9 스케일로 채점하고 이 점수를 기반으로 헌장 원칙에 맞는 응답을 생성하도록 모델이 조정되어 있다고 한다.

어퍼터스는 단순한 연구 프로젝트가 아니라 사회 인프라를 지탱하는 기반 기술로도 설계됐다. 전략적 파트너인 스위스의 통신대기업 스위스콤(Swisscom)은 법인 고객을 대상으로 어퍼터스에 대한 액세스를 제공하고 있으며 비영리 오픈소스 서비스(Public AI Inference Utility)를 통해 글로벌 공공 인프라로서 누구나 어퍼터스에 액세스할 수 있게 되어 있다고 한다. 향후 법률, 기후, 보건, 교육 같은 특정 전문분야에 적응시킨 도메인 특화형 모델 개발이 계획되어 있다. EPFL 자연언어처리연구소 안투안 보셀 소장은 어퍼터스 출시는 최종 단계가 아니라 오히려 전 세계 공공 이익을 위해 오픈되고 신뢰할 수 있으며 독립적인 AI 기반 구축을 향한 장기적 노력의 시작이라고 말했다.

어퍼터스는 8B 모델과 70B 모델, 각각 Instruct 모델을 합친 4종류가 허깅페이스에서 제공되고 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post