화웨이 칩으로 딥시크-V4-프로 사후 학습 성공했다

화웨이(Huawei)를 포함한 중국 연구팀이 화웨이 어센드 910C(Ascend 910C) 칩을 사용해 딥시크-V4-프로(DeepSeek-V4-Pro) 모델 포스트 트레이닝 그러니까 사후 학습을 완료했다고 밝혔다. 중국 반도체 산업이 AI 추론 지원에서 더 복잡한 모델 훈련으로 나아가려는 가운데 이번 프로젝트 성공은 큰 진전으로 평가된다.

연구팀은 화웨이와 선전루프에리어연구원, 하얼빈공업대학교 선전캠퍼스, 선전빅데이터연구원으로 구성된 공동팀으로 미국 제재가 강화되는 상황에서 중국 AI 산업 체인 자립성을 높이는 시도로 주목받고 있다. 중국 칩 제조사는 완성된 모델로 답변을 생성하는 AI 추론 분야에서는 성과를 거둬왔지만 모델 두뇌를 구축하거나 개선하는 트레이닝 분야에서는 과제를 안고 있었다.

이번 프로젝트에는 딥시크 역사상 최대 규모인 파라미터 수 1조 6,000억 개인 딥시크-V4-프로가 활용됐다. 선전시 정부에 따르면 딥시크-V4-프로는 화웨이 어센드 910C 최소 1,000개로 구성된 컴퓨팅 클러스터 위에서 구동됐다고 한다.

화웨이 어센드 910C는 AI 트레이닝과 추론을 가속화하기 위한 AI 가속기다. 화웨이는 SMIC 2세대 7nm 공정을 채택하고 화웨이 독자 아키텍처인 다빈치(Da Vinci)로 설계된 어센드 910C는 엔비디아 H100에 필적하는 성능을 갖췄다고 강조하고 있다.

이번 프로젝트에서 실시된 건 풀 파라미터(Full Parameter) 사후 학습이다. 사전 학습이 방대한 데이터를 흡수해 모델에 언어 사용법을 학습시키는 과정이라면 사후 학습은 인간 지시나 안전 규칙, 특정 작업 수행 방법을 학습시키는 과정이다.

이번 프로젝트를 통해 모델이 자기 반성 및 조정이 가능해졌다고 한다. 아울러 사후 학습으로 모델 전체 구조를 업데이트해 단순화 없이 개선할 수 있게 됐다고 밝혔다.

선전시 정부는 기존의 국내 컴퓨팅 역량을 질문을 입력해 답변을 출력하는 일방통행 도로에 비유하고 있다. 이번 프로젝트는 그 도로에 복잡한 입체 교차로와 루프를 추가한 형태가 되어 연산과 통신 수요가 수배로 증가했다고 설명했다. 관련 내용은 이곳에서 확인할 수 있다.