x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

중국 AI 기업인 딥시크가 오픈웨이트 모델 DeepSeek-V3.1을 8월 21일 출시했다. 이 모델은 에이전트 시대를 향한 첫걸음으로 자리매김되며 추론 모드와 비추론 모드를 모두 갖춘 하이브리드 모델로 고속화를 구현했다.

DeepSeek-V3.1이 갖춘 주요 특징은 사고를 수행하는 씽크(Think) 모드와 수행하지 않는 논-씽크(Non-Think) 모드 2가지를 모델 하나 내에 보유한 하이브리드 추론 스타일이다. 씽크 모드는 사고 속도가 향상되어 기존 모델인 DeepSeek-R1-0528보다 짧은 시간에 답변을 생성한다. 또 사전 훈련을 통해 도구 사용과 다중 단계가 필요한 에이전트 작업 기능이 강화됐다고 밝혔다. 이 새로운 기능은 공식 사이트의 채팅에서 딥씽크(DeepThink) 버튼을 전환해 체험할 수 있다.

API도 업데이트되어 deepseek-reasoner가 씽크 모드, deepseek-chat이 논-씽크 모드로 제공된다. 두 모델 모두 128K 컨텍스트 길이를 지원하며 추가로 앤트로픽 API 형식과 베타 API의 엄격한 함수 호출(Strict Function Calling)에도 대응했다. API 리소스도 증강되어 더욱 원활한 이용 경험을 제공한다.

도구와 에이전트 기능도 업그레이드되어 SWE-bench와 Terminal-Bench 등 벤치마크에서 더 나은 결과를 기록하고 있다. 복잡한 검색 작업에서의 다중 단계 추론 능력이 강화됐으며 사고 효율성도 대폭 향상됐다.

벤치마크 점수를 보면 SWE-bench Verified에서 66.0을 기록해 DeepSeek-V3-0324 45.4와 DeepSeek-R1-0528 44.6을 상회했다. SWE-bench Multilingual에서는 54.5, Terminal-Bench에서는 31.3을 달성했다.

기타 벤치마크에서도 BrowseComp에서 30.0, BrowseComp_zh에서 49.2, Humanity’s Last Exam에서 29.8, xbench-DeepSearch에서 71.2 등 많은 항목에서 DeepSeek-R1-0528 점수를 상회하는 결과를 보였다.

사고 효율성 향상은 출력 토큰 수에도 반영되어 DeepSeek-V3.1 씽크 모드는 DeepSeek-R1-0528과 비교해 AIME 2025에서 22,615에서 15,889로, GPQA Diamond에서 7,678에서 4,122로 LiveCodeBench에서 19,352에서 13,977로 각각 출력 토큰 수를 감소시켰다.

https://platform.twitter.com/widgets.js

DeepSeek-V3.1 모델 데이터와 토크나이저, 채팅 템플릿은 허깅페이스에서 공개되고 있다. 또한 모델 기반이 되는 DeepSeek-V3.1-Base도 동시에 공개됐다. DeepSeek-V3.1-Base는 V3을 기반으로 장문 컨텍스트 확장을 위해 8,400억 토큰 사전 학습을 수행한 것이라고 한다.

DeepSeek-V3.1 API 요금은 입력이 100만 토큰당 0.07달러~0.56달러, 출력이 100만 토큰당 1.68달러로 설정되어 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post