AI 모델 생성 속도 최대 85% 향상…딥시크, DSpark 공개

딥시크(DeepSeek)가 대규모 언어 모델 문장 생성을 고속화하는 투기적 디코딩(Speculative Decoding) 기술인 DSpark를 공개했다. DSpark는 새로운 언어 모델이 아니라 프리뷰 버전 딥시크-V4-플래시(DeepSeek-V4-Flash) 및 딥시크-V4-프로(DeepSeek-V4-Pro) 기존 체크포인트에 투기적 디코딩용 모듈을 추가한 것. 딥시크는 실제 사용자 요청을 처리하는 운영 환경에서 기존 방식 대비 사용자당 생성 속도를 최대 85% 향상시켰다고 보고했다.

일반 대규모 언어 모델은 문장을 구성하는 토큰을 하나씩 순서대로 생성한다. 따라서 출력이 길어질수록 추론에 시간이 걸리며 실시간 대화나 여러 단계에 걸쳐 처리를 진행하는 AI 에이전트에서는 대기 시간이 문제가 된다.

투기적 디코딩은 소형 드래프트 모델이 다음에 이어질 복수 토큰 후보를 먼저 만들고 대형 타깃 모델이 일괄적으로 검증해 처리를 빠르게 하는 기법이다. 타깃 모델은 후보 토큰을 일괄 검증해 자체 출력 분포와 정합하는 선두부터의 연속 부분만 채택한다. 도중에 채택되지 않으면 그 이후 후보를 폐기하고 해당 위치부터 타깃 모델이 다음 토큰을 생성해 처리를 이어간다. 이 구조를 통해 타깃 모델 단독으로 생성한 경우와 동일한 출력 분포를 유지하면서 복수 토큰을 한꺼번에 확정할 수 있다.

다만 기존 투기적 디코딩에는 속도와 후보 품질 양립이라는 과제가 있었다. 후보를 순서대로 생성하는 자기회귀 방식 드래프트 모델은 문맥에 부합하는 후보를 만들기 쉬운 반면 후보를 늘릴수록 처리 시간이 늘어난다. 이에 반해 복수 후보를 병렬로 만드는 방식은 고속이지만 후보 간 연결성을 충분히 고려하지 못해 뒤쪽 토큰일수록 타깃 모델에 의해 불채택 판정을 받기 쉬워진다.

DSpark는 대부분 후보를 병렬로 생성하는 백본과 후보 토큰 간 의존 관계를 반영하는 경량 순차 처리 블록을 결합하고 있다. 병렬 처리 속도를 유지하면서 먼저 생성된 후보를 토대로 후속 후보를 생성할 수 있어 후보열에 부자연스러운 조합이 발생하는 걸 줄일 수 있는 설계다. 딥시크는 이 반자기회귀(Semi-Autoregressive) 구조를 통해 병렬 방식에서 발생하기 쉬운 후보열 후반 채택률 저하를 억제할 수 있다고 설명했다.

DSpark는 후보를 몇 토큰까지 검증할지도 고정하지 않고 요청마다 조정한다. 후보열 각 위치까지가 연속 채택될 가능성을 추정하는 신뢰도 헤드(Confidence Head)와 서버의 실시간 처리 성능을 반영하는 스케줄러를 결합해 채택 가능성이 낮은 후속 후보를 검증 대상에서 제외한다. 다수 사용자가 동시에 이용하는 환경에서는 불필요한 검증을 줄여 전체 스루풋 저하를 억제하는 구조다.

DSpark 처리 흐름을 보면 병렬 블록이 복수 후보를 생성하고 순차 블록이 후보 간 의존 관계를 반영한다. 후보별 신뢰도를 기반으로 검증 범위를 좁힌 뒤 타깃 모델이 일괄 검증한다.

오프라인 평가에서는 수학 추론, 코드 생성, 일상 채팅을 대상으로 큐웬3(Qwen3) 40억·80억·140억 파라미터 모델과 젬마4-12B(Gemma4-12B)를 사용해 검증했다. 큐웬3 3개 모델에서 DSpark는 자기회귀 방식인 이글3(Eagle3)와 비교해 1회 검증으로 채택되는 후보 토큰 평균 수를 26.7~30.9% 늘렸으며 병렬 방식인 DFlash와 비교해도 16.3~18.4% 늘렸다고 밝혔다. 수학 추론이나 코드 생성에서는 일상 채팅보다 평균 채택 길이가 긴 결과가 나타났다.

딥시크-V4-플래시와 딥시크-V4-프로 프리뷰 버전을 사용한 실제 운영 환경에서는 최대 5개 토큰 후보를 생성하는 DSpark-5를 기존 MTP-1 방식과 비교했다. 동등한 수준 총 출력 스루풋으로 비교한 경우 딥시크-V4-플래시에서는 사용자당 생성 속도가 60~85%, 딥시크-V4-프로에서는 57~78% 향상된 것으로 보고됐다. 딥시크-V4-플래시에서 사용자당 초당 80토큰을 보장하는 조건에서는 총 출력 스루풋이 51% 향상됐으며 플래시에서 초당 120토큰, 프로에서 초당 50토큰을 보장하는 엄격한 조건에서도 DSpark는 검증 처리 낭비를 억제해 스루풋을 유지했다고 밝혔다.

DSpark와 기존 MTP-1의 사용자당 생성 속도와 GPU당 총 출력 스루풋 관계를 보면 딥시크-V4-플래시와 딥시크-V4-프로 양쪽 모두에서 DSpark는 응답 속도를 높게 유지하면서 더 높은 총 출력 스루풋을 보였다.

딥시크는 프리뷰 버전의 딥시크-V4-플래시 및 딥시크-V4-프로용으로 DSpark 체크포인트를 공개한 것 외에 투기적 디코딩용 훈련 리포지토리 딥스펙(DeepSpec)도 오픈소스로 공개해 이글3, DFlash, DSpark의 구현을 이용할 수 있다. 모델별 inference 폴더에는 최소한의 추론 예제가 있으며 모델 배포 페이지에는 딥시크-V4를 로컬에서 실행하는 절차도 게재되어 있다. 공개된 DeepSeek-V4-Flash-DSpark 및 DeepSeek-V4-Pro-DSpark 모델 가중치는 MIT 라이선스로 제공된다. 관련 내용은 이곳에서 확인할 수 있다.