x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

오픈AI 창립 멤버이자 AI 개발 엔지니어인 안드레이 카르파티(Andrej Karpathy)가 챗GPT 같은 AI 챗봇을 처음부터 구축하기 위한 오픈소스 프로젝트인 나노챗(nanochat)을 공개했다. 나노챗을 사용하면 100달러 예산으로 몇 시간 만에 기본적인 대규모 언어모델(LLM) 학습부터 챗GPT 같은 AI 챗봇 구축까지 가능하다.

나노챗은 모델 핵심이 되는 신경망 설계부터 언어를 이해하기 위한 토큰화, 지식을 습득시키는 사전학습, 대화 능력을 정교하게 다듬는 파인튜닝, 완성된 모델과 대화하기 위한 웹 인터페이스까지 LLM 개발에 필요한 모든 요소를 단일 코드베이스로 제공한다. 전체 코드는 8,000줄로 비교적 콤팩트하며 주로 파이썬(PyTorch)으로 작성됐고 일부 고속 처리가 필요한 토크나이저 학습에는 Rust가 사용됐다.

나노챗의 가장 큰 특징은 간편함과 투명성이다. 보통 고성능 LLM 개발에는 수십억 규모 투자가 필요하지만 나노챗은 엔비디아 H100이라는 고성능 GPU 8기를 탑재한 컴퓨터를 시간 단위로 빌려 비용을 극적으로 낮췄다. 예를 들어 시간당 24달러에 렌탈할 수 있는 컴퓨터를 사용하면 speedrun.sh라는 부속 스크립트를 실행하는 것만으로 일련의 학습 프로세스를 100달러 정도, 그것도 4시간이라는 단시간에 완료할 수 있다. 이 speedrun.sh로 생성되는 모델은 5억 6,000만 파라미터를 가지며 기본적인 대화가 가능한 수준에 도달한다.

학습 프로세스는 크게 4단계로 나뉜다. 첫 번째 사전학습은 가장 시간이 소요되는 단계로 3시간에 걸쳐 진행된다. 여기서는 FineWeb-EDU라는 교육적인 웹페이지에서 수집된 24GB에 이르는 방대한 텍스트 데이터를 모델에 읽어 들인다. 이를 통해 모델은 언어 구조와 세계에 대한 폭넓은 지식을 습득한다. 다음으로 미드트레이닝(중간학습)이라 불리는 단계로 이행한다. 이 프로세스에서는 일반적인 대화 데이터셋(SmolTalk)이나 객관식 문제(MMLU), 산수 문장제(GSM8K) 등을 학습시킨다. 이를 통해 모델은 단순히 지식을 가질 뿐만 아니라 사용자와의 대화 형식이나 특정 질문에 답하기 위한 방법을 익힌다. 이어서 지도 파인튜닝(SFT)을 7분간 진행한다. 여기서는 질 높은 엄선된 대화 데이터를 사용해 모델 응답을 더 정교하게 다듬고 최종 성능 상향을 도모한다. 마지막으로 진행하는 강화학습(RL)은 선택사항으로 기본값으로는 실행되지 않지만 산수 문제처럼 정답이 명확한 작업에서 모델이 스스로 시행착오를 반복해 정답률을 더 높일 수 있다.

카르파티에 따르면 모델에 대한 종합적인 언어 능력을 나타내는 CORE Metric이라는 지표에서 나노챗으로 학습시킨 예산 100달러 모델은 0.22라는 점수를 기록했다. 이 점수는 GPT-2 large 모델(0.21)을 근소하게 상회하는 수준이다. 학습 직후 모델은 프랑스의 수도는 파리, 금 원소기호는 Au와 같은 사실을 알고 있는 반면 간단한 계산은 서툴렀지만 파인튜닝을 거친 뒤에는 하늘이 왜 파란지 묻는 질문에 레일리 산란을 들어 설명하거나 그 주제로 시를 짓는 것도 가능해졌다고 한다.

학습 완료 후 사용자는 웹브라우저를 통해 자신의 손으로 만든 LLM과 대화를 즐길 수 있다. 나노챗은 단순히 저비용 LLM을 제공하는 것 뿐 아니라 내부 구조를 이해하기 쉽도록 의도적으로 간단하고 가독성 높은 코드로 설계됐다. 모델 레이어 수를 변경하는 것만으로도 성능을 향상시킬 수 있으며 예를 들어 300달러 예산으로 12시간 동안 학습하면 GPT-2 표준 모델을 상회하는 성능도 기대할 수 있다. 실제로 나노챗으로 구축한 5억 6,100만 파라미터 언어모델이 허깅페이스에 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post