생성 AI IQ 테스트 대결 결과는?

AI 성능을 측정하는 벤치마크에는 일상 업무 실행 정확도를 검증하는 테스트나 계산 문제 해답 정확도를 검증하는 테스트 등 많은 종류가 존재한다. 트래킹AI(Tracking AI)는 각종 AI IQ 테스트 결과와 정치적 질문에 대한 답변을 정리한 웹사이트로 AI 성능을 객관적으로 비교할 수 있다.

트래킹AI에서는 온라인상에 존재하지 않고 AI 학습에 사용되지 않은 자체 제작 IQ 테스트와 멘사가 온라인상에서 공개하고 있는 IQ 테스트가 문제로 사용됐다. 문제 예시는 이미지 읽기 기능을 갖춘 AI에게는 문제에 포함된 도표를 그대로 입력하고 텍스트 입력에 특화된 AI에게는 도표를 설명하는 문장을 프롬프트로 입력한다.

IQ 테스트 결과를 정리한 자체 제작 테스트에서 가장 우수한 성과를 거둔 건 오픈AI GPT-5 Pro로 IQ는 123이었다. 멘사 테스트에서는 GPT-5 Pro 이미지 읽기 기능 탑재 모델이 최우수였으며 IQ는 138이었다. GPT-4o 이미지 읽기 기능 탑재 모델 IQ가 65인 것을 고려하면 큰 진전이다. 또 세계 최강 AI라는 문구로 등장한 Grok 4는 자체 제작 테스트에서 IQ 110, 멘사 테스트에서 IQ 125라는 결과를 기록했다. 각 AI IQ 추이를 보면 Claude 3.7 Extended와 Claude 3.5 Sonnet IQ가 매월 크게 향상되고 있다.

트래킹AI에서는 각 AI에 정치적 질문을 던져 AI의 정치적 편향도 조사하고 있다. 테스트 대상 AI는 모두 좌파적 경제 정책을 지지하고 자유주의적 사회 정책을 지지하는 경향이 있는 것으로 나타났다. 같은 마이크로소프트 제품이라도 Bing Copilot은 좌파적 경향이 뚜렷한 반면 Phi-4는 중립적 성향을 보이는 게 흥미로운 부분이다. 관련 내용은 이곳에서 확인할 수 있다.