
SWE-bench Verified는 지난 2024년 8월 오픈AI가 공개한 벤치마크로 AI 프로그래밍 능력을 측정하는 대표적인 지표로 널리 활용되어 왔다. 새로운 분석을 통해 SWE-bench Verified에 2가지 중대한 문제가 있다는 게 드러났고 오픈AI는 더 이상 최첨단 모델 능력을 올바르게 측정하는 벤치마크로 적합하지 않다고 밝혔다.
오픈AI가 2023년 출시한 SWE-bench는 12개 오픈소스 파이썬 리포지토리에서 해결된 깃허브 이슈를 출처로 삼아 대응하는 풀 리퀘스트와 조합해 모델이 생성한 코드 변경이 올바른지를 판단하는 테스트를 제공한다. AI 모델은 원본 문제 텍스트와 수정 전 리포지토리 상태만을 기반으로 코드 수정 및 변경을 생성해야 하며 해당 변경이 적용된 후 테스트를 실시해 평가한다. SWE-bench가 모델의 자율적인 소프트웨어 엔지니어링 능력을 체계적으로 과소평가한다는 사실이 밝혀지면서 더 정확한 평가를 제공하기 위해 2024년 출시된 게 바로 SWE-bench Verified다.
SWE-bench Verified는 출시 이후 최첨단 모델 평가에 폭넓게 활용됐다. 초기에는 모델 성능이 빠르게 향상됐지만 2025년 8월부터 2026년 2월까지 6개월간 6% 개선에 그치며 성장세가 둔화됐다. 이 같은 성장 둔화가 모델 한계를 나타내는 것인지 아니면 데이터셋 자체 특성을 반영하는 것인지 SWE-bench Verified의 유효성을 재확인할 필요성이 제기됐다.
이에 오픈AI는 자세한 분석을 실시한 결과 SWE-bench Verified에 2가지 중대한 문제가 있다는 게 드러났다고 지난 2월 보고했다.
첫 번째 문제는 테스트가 올바른 해법을 거부하는 경우가 있다는 결함. 오픈AI 분석에 따르면 모델이 풀지 못한 데이터셋 27.6%를 감사한 결과 최소 59.4%에 기능적으로 올바른 답안 제출을 거부하는 결함 있는 테스트 케이스가 포함된 것으로 확인됐다. 다시 말해 AI가 본래 올바른 코드 수정을 했음에도 불구하고 정답이 하나가 아니거나 테스트 설계가 부적절한 이유로 오답으로 판정되는 사례가 존재한다는 것이다. 오픈AI는 이는 SWE-bench Verified 초기 제작 당시 개선을 위해 최대한 노력했음에도 발생한 현상이라고 밝혔다.
또 하나 중대한 문제는 데이터 오염이다. SWE-bench 문제는 다수 모델 제공자가 학습 목적으로 활용하는 오픈소스 리포지토리에서 가져온 것이다. 오픈AI 분석에서는 최첨단 모델이 문제 텍스트나 실제 수정 코드를 그대로 재현하는 사례가 확인됐으며 시험 전에 문제와 답을 미리 본 상태였다는 게 지적됐다. 이는 벤치마크 결과 성능 향상이 실질적인 모델 개선이 아니라 모델이 학습 시 벤치마크를 얼마나 참조했는지를 반영하고 있을 가능성이 높다는 걸 의미한다.
오픈AI는 실제로 지난 2월 시점 최신 모델인 GPT-5.2를 활용한 검증 결과도 소개했다. SWE-bench Verified에서 실패로 판정된 일부 문제를 인간이 직접 검토한 결과 실제로는 올바른 수정을 했음에도 테스트 미비로 인해 오답 처리된 사례가 다수 확인됐다. 또 모델이 문제에 포함된 코드 변경을 그대로 재현하는 사례도 확인됐는데 이는 사전 학습에 의한 데이터 오염 영향을 시사한다.
이런 문제를 받아들여 오픈AI는 SWE-bench Verified 결과 보고를 중단하고, 대안으로 SWE-bench Pro 등 새로운 평가 방법 활용을 권장하고 있다. SWE-bench Pro는 데이터 오염을 방지하기 위해 평가 데이터 일부를 비공개로 하는 등 기존보다 엄격한 평가 설계를 채택하고 있다. 완벽하지는 않지만 SWE-bench Verified에 비해 오염 수준이 상당히 낮으며 어떤 모델도 사전 학습에서 얻은 축어적인 정답 패치를 완전히 생성하지는 못했다고 밝혔다. 오픈AI는 아울러 향후에는 오염되지 않은 데이터셋, 실제 환경에 가까운 평가 방법, 인간 리뷰를 포함한 평가 등 새로운 접근 방식이 중요해질 것이라고 강조했다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 제논-KB금융, 시니어 케어용 피지컬 AI 공개‧KBO 팬덤, 굿즈 넘어 ‘체험형 소비’로 진화](https://startuprecipe.co.kr/wp-content/uploads/2026/04/260430_aws_450235-75x75.jpg)
![[DailyRecipe] 목표는 100개…경기도표 기후테크 34곳 1페이지 브리핑](https://startuprecipe.co.kr/wp-content/uploads/2026/04/260421_Climate-Technology_ai_0503205235-350x250.png)
