x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

대규모 언어모델의 훈련에는 대규모 데이터셋이 필요하지만 데이터셋에 편향이 있으면 출력 결과나 동작에도 바이어스가 발생한다. 타임캡슐 LLM(TimeCapsule LLM)은 이를 역으로 이용해 일부러 1800~1875년이라는 한정된 연대 데이터셋만을 사용해 훈련된 대규모 언어모델이다.

타임캡슐 LLM은 현대에 존재하는 다양한 바이어스나 가치관을 배제하고 당시 논조나 어휘, 세계관을 모방하는 것을 목적으로 일부러 1800~1875년 데이터셋만을 사용해 훈련된 대규모 언어모델. 개발자(Hayk Grigorian)는 AI 모델이 역사적인 것처럼 가장하는 게 아니라 실제로 역사적인 것이었다면 어떻게 될지 상상해보라고 밝혔다.

타임캡슐 LLM 버전 0 및 버전 0.5는 오픈AI GPT 모델을 간단하고 경량화한 nanoGPT 위에 구축됐으며 매우 적은 데이터셋만으로 훈련됐다고 한다. 버전 0.5에서는 구두점과 문법이 대폭 개선됐지만 여전히 환각 발생률은 매우 높았으며 OCR 적용 시 노이즈가 출력에 남아있었다고 한다.

타임캡슐 LLM 버전 1은 마이크로소프트가 내놓은 소형이면서 고성능 대규모 언어모델인 Phi 1.5를 기반으로 구축됐다. 버전 1에서는 프롬프트에 따라 실제 역사적 사건이나 실존 인물과 연결된 답변이 가능해졌다.

또 1800~1875년 런던 서적·법률 문서·신문·기타 문헌을 포함한 90GB 텍스트를 사용해 학습하는 버전 2도 개발 중이다. 버전 2를 개발하기 위해 수집된 데이터에는 당시 세상 분위기를 나타내는 다양한 바이어스가 포함되어 있다. 아직 전체 데이터셋 토큰화가 완료되지 않아 버전 2는 존재하지 않지만 90GB 중 15GB만을 사용해 훈련된 v2mini-eval1/2가 존재한다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post