오픈AI가 지난 2024년 10월 공개한 챗GPT 실시간 대화 기능을 앱에 통합할 수 있는 Realtime API를 베타 버전에서 정식 버전으로 업데이트해 일반 공개했다. 또 실용적인 음성대화 모델인 gpt-realtime도 발표했다.
Realtime API는 2024년 10월 텍스트 음성 변환 API를 거치지 않고 음성인식 모델과 오디오 입출력을 직접 처리해 지연시간을 줄일 수 있는 API로 등장했다.
오픈AI에 따르면 이번 퍼블릭 베타 버전 공개 후 개발자 수천 명이 API를 도입하면서 개선점이 파악된 결과 신뢰성과 저지연, 고품질을 실현해 음성 에이전트를 운영 환경에 성공적으로 도입할 수 있도록 최적화됐다고 한다. 실제로 부동산 정보 사이트 질로우(Zillow)나 통신회사 티모바일(T-Mobile) 등에서 자연스럽게 응답하는 음성 에이전트가 도입됐다.
새롭게 발표된 음성대화 모델인 gpt-realtime은 복잡한 지시 이해, 정확한 도구 호출, 보다 자연스럽고 표현력 풍부한 음성 생성 개선 등을 포함하고 있다. 오픈AI에 따르면 시스템 메시지나 개발자 프롬프트 해석 능력도 향상되어 고객 지원 통화에서의 면책사항 설명의 축어적 읽기, 영숫자 반복, 문장 중 매끄러운 언어 전환 등에 대응한다고 한다.
음성 에이전트 배포에는 자연스러운 대화가 필수적이다. gpt-realtime에서는 보다 자연스럽게 들리고 세밀한 지시에도 따르는 고품질 음성을 생성하기 위한 훈련이 수행됐다고 하며 새롭게 Cedar와 Marin이라는 2개 음성이 추가됐을 뿐 아니라 기존 8개 음성도 업데이트됐다고 한다.
gpt-realtime은 음성 이해력도 이전보다 향상되어 전화번호 등 영숫자 검출 정확도는 82.8%로 2024년 12월 이전 모델 65.6%에서 크게 개선됐다. 또 개발자는 모델에 대해 특정 상황에서 뭘 말해야 하고, 뭘 해야 하거나 하지 말아야 하는지 같은 행동 규범을 지시한다. 오픈AI는 이런 지시를 준수하는 데 집중하여 개선을 진행했으며 지시 준수 정확도를 측정하는 MultiChallenge 음성 벤치마크에서 30.5%라는 점수를 기록했다. 이는 2024년 12월 기존 모델이 기록한 20.6%에서 대폭 향상된 것이다. 함수 호출에서도 ComplexFuncBench Audio Function Calling 벤치마크에서 66.5% 점수를 기록해 기존 모델 49.7%를 크게 상회했다. 그 밖에도 MCP 지원 활성화나 이미지 입력 지원 등 개선이 추가됐다.
gpt-realtime 이용 요금은 gpt-4o-realtime-preview와 비교해 20% 저렴해져서 음성 입력 토큰이 100만 개당 32달러, 캐시된 입력 토큰은 0.4달러, 음성 출력 토큰은 100만 개당 64달러다.
![[AI서머리] 알체라·바이엘, 150억‧대봉유통’ 시드 투자 유치](https://startuprecipe.co.kr/wp-content/uploads/2025/09/250901_kenca.or_.kr_500235-75x75.jpg)

