“인간보다 PC 잘 조작한다” GPT-5.4 출시한 오픈AI

오픈AI(OpenAI)가 전문적인 업무에 특화해 설계된 최신 프런티어 모델인 GPT-5.4를 3월 5일 출시했다. 이 모델은 챗GPT(ChatGPT), API, 코덱스(Codex)를 통해 배포되며 추론·코딩·자율 에이전트 워크플로에서의 성과를 한 모델에 집약했다. 보다 고도화된 추론을 수행하는 GPT-5.4 Thinking과 복잡한 태스크에서 최고 성능을 발휘하는 GPT-5.4 Pro도 동시에 발표됐으며 이들은 지식 노동 및 전문적인 실무에서 높은 능력을 발휘하도록 구축됐다.

오픈AI는 지난 3월 4일 GPT-5.3 Instant를 발표한 바 있다. 당시 오픈AI는 GPT-5.4는 생각보다 빨리 출시될 것이라고 시사한 바 있다.

GPT-5.4는 실제 업무에서의 정확성과 효율성을 중시하며 스프레드시트·프레젠테이션·문서 작성 등 여러 툴을 넘나드는 조작이 대폭 개선됐다. 44개 직종에 걸친 지식 노동 질을 평가하는 GDPval 벤치마크에서 GPT-5.4는 83.0%라는 점수를 기록하며 전 모델인 GPT-5.2의 70.9%를 크게 웃도는 성과를 보였다. 오픈AI는 GPT-5.4를 전문적인 업무를 위한 가장 유능하고 효율적인 프런티어 모델이라고 평가했다.

또 투자은행 애널리스트가 수행하는 모델링 태스크에서도 평균 87.3% 점수를 달성해 기존 68.4%에서 정확도를 끌어올렸다. 팩트체크 성능도 강화되어 사용자가 사실과 다른 프롬프트를 입력했을 때 사실과 다른 답변을 반환할 확률이 33% 낮아졌으며 전체 답변 오류율은 GPT-5.2 대비 18% 개선됐다. 아울러 오픈AI는 챗GPT를 워크북에 직접 연동하는 엑셀 애드인으로 챗GPT 포 엑셀(ChatGPT for Excel) 베타 버전을 출시했다.

이번 업데이트에서 주목할 만한 점으로 범용 모델에서 처음으로 네이티브 컴퓨터 조작 기능을 탑재했다는 점이 꼽힌다. 데스크톱 환경을 스크린샷과 입력 장치를 통해 조작하는 능력을 측정하는 OSWorld-Verified에서는 인간 평균 성공률인 72.4%를 뛰어넘는 75.0% 점수를 달성했다.

시각 인식 능력도 비약적으로 향상되어 최대 1024만(10.24M) 픽셀 또는 장변 6000픽셀 고해상도 이미지를 원본 해상도 그대로 인식하는 풀 피델리티(Full Fidelity) 처리가 가능해졌다. 이를 통해 개발자들은 웹사이트나 소프트웨어 시스템을 넘나들며 실무를 완결하는 에이전트를 보다 높은 신뢰성으로 구축할 수 있게 됐다.

시각적 이해와 추론을 측정하는 벤치마크인 MMMU-Pro에서 GPT-5.4는 툴 미사용 상태로 81.2% 성공률을 달성해 GPT-5.2가 기록한 79.5%에서 착실한 진전을 이뤘다. OmniDocBench에서는 추론 과정 없이 평균 오차 0.109를 달성해 GPT-5.2의 0.140에서 개선됐다. 오픈AI는 이를 풀 피델리티 인식을 지원하는 새로운 이미지 입력 레벨 도입에 힘입은 결과라고 강조했다.

코딩 능력 면에서 GPT-5.4는 GPT-5.3-Codex의 강점을 흡수했다. SWE-Bench Pro에서 GPT-5.4는 GPT-5.3-Codex와 동등하거나 그 이상 성능을 발휘하면서도 추론 처리 전반 레이턴시를 낮게 유지하는 데 성공했다. 또 코덱스에 새로 도입된 /fast 모드를 활용하면 모델 지능을 유지하면서 최대 1.5배 토큰 처리 속도로 작업이 가능하다.

대규모 툴셋 처리 효율을 높이기 위해 API에 툴 검색 기능도 도입됐다. 이는 기존처럼 모든 툴 정의를 프롬프트에 포함시키는 대신 필요에 따라 정의를 동적으로 불러오는 방식으로 MCP Atlas 벤치마크에서 토큰 사용량을 47% 줄이면서도 정확도를 유지할 수 있음을 입증했다고 오픈AI는 밝혔다.

코덱스에서는 실험적으로 100만(1M) 토큰 컨텍스트 윈도우를 지원해 장기 태스크 계획·실행·검증이 가능해졌으며 웹앱의 시각적 디버깅을 수행하는 플레이라이트 인터랙티브(Playwright Interactive) 등 새로운 스킬도 제공된다.

오픈AI는 GPT-5.4가 자율 에이전트에 의한 웹 검색 및 브라우저 조작 능력에서 대폭 향상됐다고 밝혔다. 찾기 어려운 정보를 웹에서 끈질기게 탐색하는 능력을 측정하는 벤치마크인 BrowseComp에서 GPT-5.4는 GPT-5.2 대비 절댓값 17% 앞서는 점수를 기록했다. 최상위 모델인 GPT-5.4 Pro는 89.3%라는 수치를 달성하며 새로운 세계 최고 수준을 수립했다.

오픈AI는 GPT-5.4 배포에 앞서 GPT-5.3-Codex에서 도입한 안전 장치를 한층 개선해 높은 사이버 역량을 가진 모델에 걸맞은 적절한 보호 조치를 갖췄다고 밝혔다. 여기에는 모니터링 시스템, 신뢰할 수 있는 접근 제어, 제로 데이터 리텐션(ZDR) 환경에서 위험성이 높은 요청에 대한 비동기 블로킹 등 확장된 사이버 안전 스택이 포함된다.

또 CoT(Chain-of-Thought) 모니터링 가능성에 관한 연구도 지속되고 있으며 새롭게 도입된 CoT 제어 가능성 평가에서 GPT-5.4 Thinking은 자신의 추론을 의도적으로 은폐하는 능력이 낮은 것으로 나타났다. 오픈AI는 이게 안전성 측면에서 긍정적인 특성이며 CoT 모니터링이 여전히 유효한 도구임을 보여주는 결과라고 설명했다.

GPT-5.4는 3월 6일부터 챗GPT 및 코덱스를 통해 단계적으로 배포되며 API에서는 gpt-5.4로 이용할 수 있다. 챗GPT에서는 플러스, 팀, 프로 유료 플랜 이용자를 대상으로 GPT-5.4 Thinking 제공이 시작되며 기존 GPT-5.2 Thinking을 대체한다. 구 모델인 GPT-5.2 Thinking은 2026년 6월 5일 폐기될 때까지 레거시 모델로서 3개월간 계속 제공된다. 보다 고성능인 GPT-5.4 Pro는 Pro 및 엔터프라이즈 플랜에서 이용할 수 있으며 API에서도 gpt-5.4-pro로 제공된다.

API 이용 요금은 높은 성능을 반영해 GPT-5.2 대비 높게 책정됐으며 gpt-5.4 입력 가격은 100만 토큰당 2.50달러, 캐시된 입력은 0.25달러다. 최상위 모델인 gpt-5.4-pro 입력 가격은 100만 토큰당 30달러다. API에서는 배치 처리 및 플렉스 프라이싱(Flex Pricing)을 활용하면 표준 요금 절반에 이용할 수 있는 반면 우선 처리를 선택하면 2배의 요금이 적용된다.

한편 GPT-5.4는 이전 모델보다 토큰 효율이 대폭 향상되어 동일한 문제를 풀 때 더 적은 토큰으로 처리할 수 있어 최종적인 총비용 절감에 기여한다고 오픈AI는 주장했다. 관련 내용은 이곳에서 확인할 수 있다.