
지난 1월 중국 AI 스타트업 딥시크(DeepSeek)는 독자적인 강력한 추론 모델인 딥시크 R1(DeepSeek R1)을 출시했다. 출시 직후 미국 주식시장이 폭락할 정도로 경쟁 AI 모델에게 놀라운 비용 대비 성능을 보여준 딥시크 R1이지만 지금까지 베일에 싸여 있었던 딥시크 R1 훈련 비용 등 세부 사항을 딥시크가 공개했다.
딥시크 R1은 수학이나 코딩 같은 추론 작업에서 뛰어난 성능을 발휘하도록 설계된 AI 모델로 미국 기술 기업이 개발한 경쟁 AI 모델보다 저비용으로 개발된 점이 큰 주목을 받았다. 딥시크 R1은 오픈 웨이트 모델로 누구나 다운로드할 수 있다. AI 커뮤니티 플랫폼인 허깅페이스에서 가장 인기 높은 AI 모델 중 하나로 현재 이미 1,090만 회 이상 다운로드됐다.
9월 17일 딥시크는 과학 저널 네이처에서 추론 모델 딥시크 R1에 관한 동료 심사를 거친 논문을 공개했다. 논문에서는 딥시크가 일반적인 대규모 언어모델(LLM)을 추론 작업에 대응하도록 어떻게 강화했는지를 해설하고 있다. 또 보충 자료에서 딥시크 R1 훈련 비용이 처음으로 공개됐으며 그 금액은 단 29만 4,000달러였다.
딥시크는 딥시크 R1 기반이 되는 LLM을 개발하기 위해 600만 달러를 투입했지만 경쟁사 AI 개발 비용과 비교하면 훨씬 저렴하다. 또 딥시크는 딥시크 R1 훈련에 사용한 AI 칩에 대해 딥시크 R1은 엔비디아 H800 칩 512개로 구성된 클러스터에서 80시간에 걸쳐 훈련됐다고 언급했다.
이 논문이 공개되어 딥시크 R1은 동료 심사 과정을 거친 첫 저명한 LLM이 됐다. 이에 대해 논문 심사를 담당한 허깅페이스 머신러닝 엔지니어 루이스 탄스틸은 이는 환영할 만한 선례라며 프로세스 대부분을 공개하고 공유하는 관행이 없다면 이런 시스템이 어떤 리스크를 갖고 있는지 평가하기 어렵다고 말했다.
이런 심사 의견에 대해 딥시크 개발팀은 모델 설명에서 의인화 표현을 줄이고 훈련 데이터 종류나 안전성 등 기술적 세부사항 설명을 추가했다. 미국 오하이오주립대학교에서 AI 연구자로 일하는 판 썬은 엄격한 심사 과정을 거쳐 AI 모델 타당성이나 유용성이 검증되는 건 확실하다며 다른 회사도 마찬가지로 동료 심사를 받아야 한다고 말했다.
딥시크 주요 기술 혁신은 순수 강화학습이라 불리는 자동 시행착오 방법을 사용해 딥시크 R1을 훈련한 점이다. 이 과정은 인간이 선택한 추론 예시를 가르치는 게 아니라 정답에 도달했을 경우 AI 모델이 보상을 얻을 수 있도록 설계하는 것이다. 딥시크에 따르면 이를 통해 AI 모델 자체가 인간이 가르친 방식을 따라하지 않고 자신의 작업을 검증하는 등 추론적 전략을 학습했다고 한다.
또 딥시크는 훈련 효율화를 위해 그룹 상대 정책 최적화(GRPO: Group Relative Policy Optimization)라고 불리는 방법을 채택했다. 이는 시행마다 독자적으로 추정 평가를 내리고 별도 알고리즘을 사용하지 않고 자체 평가를 수행한다는 것이다.
썬은 딥시크 R1에 대해 AI 연구자 사이에서 상당히 큰 영향을 미쳤다며 2025년 들어 LLM에 강화학습을 적용한 연구 거의 모든 게 어떤 형태로든 딥시크 R1의 영향을 받았을 수 있다고 말했다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 대구경북 스타트업 축제 개막‧중소벤처 R&D, 2.2조원 집중 투자](https://startuprecipe.co.kr/wp-content/uploads/2025/09/250925_Daegu-Center-for-Creative-Economy-Innovation_0325235235-75x75.jpg)

