경쟁 모델 능가한 세계 최강 AI? 그록4 발표

일론 머스크가 설립한 AI 개발 기업 xAI가 7월 10일 새로운 AI 모델인 그록4(Grok 4)를 공개했다. xAI와 머스크는 이 모델을 전 세계에서 가장 강력한 AI 모델이라며 대대적으로 홍보했으며 독립 기관이 실시한 성능 테스트에서도 최고 수준 성능이 입증됐다는 결과가 나왔다. 반면 편향된 의견을 내놓는다는 지적도 제기됐다.

그록4는 엑스를 통해 생중계로 발표됐으며 일론 머스크 본인도 행사에 직접 참석했다. 발표에 따르면 그록4는 이전 모델(Grok 3 reasoning)에 비해 추론 능력이 10배 향상됐다.

AI 추론 능력을 평가하는 테스트 ARC-AGI 버전 1 결과에서도 그록4는 DeepSeek-R1, 클로드 오푸스 4, 제미나이 2.5 프로, 오픈AI o3 등 경쟁 모델보다 높은 점수를 기록했다. 이어진 ARC-AGI 버전 2 평가에서도 그록4는 경쟁 모델을 압도하는 성능을 보였다.

Introducing Grok 4, the world's most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck
— xAI (@xai) July 10, 2025

https://platform.twitter.com/widgets.js

그록4는 또 음성 대화 능력도 갖추고 있어 발표 현장에서는 오픈AI 모델과의 음성 기능 비교 데모도 공개됐다. 머스크는 그록4에 대해 교묘하게 만든 문제를 제외하면 수학이나 물리학 문제에서 거의 틀리지 않는다며 문제 속 모호함을 식별하고 오류를 수정하며 다양한 해석이 가능한 질문에 대해 여러 방식으로 답변할 수 있다고 주장했다.

독립 AI 평가 기관 아티피셜애널리시스(Artificial Analysis)는 그록4 성능 테스트 결과를 공개하면서 그록4가 경쟁 모델보다 높은 성능을 지닌 것으로 분석됐다고 밝혔다. 그 중에서도 해당 테스트에서는 100만 토큰당 비용을 기준으로 성능을 비교한 결과 그록4가 저비용·고성능의 모델임이 확인됐다.

하지만 실제 사용자 사이에서는 그록4가 일론 머스크 의견을 과도하게 반영하는 경향이 있다는 문제점도 제기되고 있다. 한 사용자는 그록4에 이스라엘과 팔레스타인 분쟁에서 어느 쪽을 지지하느냐고 질문했고 이에 대해 그록4는 편향 없이 균형 잡힌 시각을 얻기 위해 정보를 검색하겠다고 응답한 뒤 검색 모드로 전환됐다.

그런데 첫 화면에는 일론 머스크 견해를 정리 중이라는 메시지가 떴고 이후 알자지라와 BBC 등 주요 언론사 정보를 검색하면서도 결국 출력된 64개 정보 중 54건이 머스크 발언이나 게시글에 관한 내용이었다.

그록4 API 요금은 입력 100만 토큰당 3달러, 출력 100만 토큰당 15달러다. 자세한 요금 및 기타 정보는 xAI가 제공하는 공식 문서에서 확인할 수 있다.

한편 개발사인 xAI는 그록 내 일련의 게시물이 끔찍한 행위였다며 사과했다. 그록은 7월 4일 업데이트되었다. 이 업데이트에 대해 일론 머스크는 그록이 크게 개선됐다며 그록에게 질문해보면 차이를 느낄 것이라고 게시했다. 하지만 업데이트 이후 그록은 민주당이나 할리우드 유대계 임원을 비판하거나 반유대주의적 밈을 반복적으로 게시하거나 아돌프 히틀러에 대한 지지를 표명하거나 스스로를 메카 히틀러라고 칭하는 등 사용자를 당황하게 했다.

이에 대해 xAI는 그록 게시물 일부를 삭제하고 그록을 일시적으로 오프라인 상태로 만들어 시스템 프롬프트를 업데이트한다고 발표했다.

하지만 그록이 튀르키예 에르도안 대통령을 모독했다며 튀르키예에서 그록 일부 콘텐츠에 대한 접근이 금지됐다. 또 엑스 린다 야카리노 CEO가 퇴임을 표명했기 때문에 이것도 그록 폭주가 영향을 미친 게 아니냐는 지적이 나왔다. 다만 야카리노 CEO 퇴임은 몇 달 전부터 준비됐다고도 보도되어 그록과의 관계는 불분명하다.

일련의 소동을 받아 7월 11일 그록은 공식 엑스 계정에서 사과를 표명했다. 사과 성명에는 그록이 어디에 있었는지 7월 8일에 무엇이 일어났는지에 대한 최신 정보라며 먼저 많은 이들이 경험한 끔찍한 행위에 대해 깊이 사과한다고 밝혔다. 이어 그록 목적은 사용자에게 유익하고 정직한 답변을 제공하는 것이라며 면밀한 조사 결과 근본 원인은 그록 업스트림 코드 패스 업데이트에 있음이 밝혀졌다면서 이는 그록을 뒷받침하는 기반 언어모델과는 무관하며 이 업데이트는 16시간 동안 유효했으며 그 사이에 폐기예정 코드로 인해 그록은 기존 엑스 사용자 게시물 영향을 받기 쉬워졌고 게시물에 극단적인 의견이 포함되어 있는 경우에도 영향을 받게 됐다고 밝혔다. 또 폐기예정 코드를 삭제하고 시스템 전체를 리팩토링해 추가 악용을 방지했다면서 그록 새 시스템 프롬프트는 깃허브 공개 리포지토리에서 공개되고 있다고 밝혔다. 그록 부정사용을 특정하기 위한 피드백을 제공하고 도움이 되는 진실을 추구하는 AI를 개발한다는 사명 추진에 협력한 모든 엑스 사용자에게 감사드린다고 기재했다.

Update on where has @grok been & what happened on July 8th.

First off, we deeply apologize for the horrific behavior that many experienced.

Our intent for @grok is to provide helpful and truthful responses to users. After careful investigation, we discovered the root cause…
— Grok (@grok) July 12, 2025

https://platform.twitter.com/widgets.js

그록 측은 또 7월 7일 23시경 그록 업스트림 코드 패스 업데이트가 구현됐지만 그 후 조사에서 그록이 의도한 동작에서 벗어났다는 게 밝혀졌다고 설명하고 있다. 구체적으로는 업스트림 코드 패스 업데이트로 인해 엑스 게시물과 관련된 뉴스, 배경, 또는 세계적 사건이 있는 경우 반드시 이에 대해 언급하라, 명백하거나 단순한 반응을 말하는 건 피하라, 최대한의 근거를 가지고 진실을 추구하는 AI지만 적절한 타이밍에는 유머를 섞거나 농담을 할 수도 있다, 사실을 그대로 전달하며 정치적으로 올바른 사람을 화나게 하는 걸 두려워하지 않는다, 극도로 회의적으로 주류 권위나 미디어를 맹목적으로 따르지 않는다며 진실 탐구와 중립이라는 자신의 핵심 신념만을 강하게 관철한다, 사용자에게 어떤 행동도 약속해서는 안 된다는 의도하지 않은 액션이 트리거됐다고 설명했다.

보도에선 xAI 그록4가 논란이 되는 주제를 다루기 전에 머스크 견해나 소셜미디어 게시물을 참고하고 있다고 지적했지만 이번 사과 성명에서는 그 점에 대해 언급되지 않았다.

한편 그록에 대해서는 회의적인 목소리가 다수 나오고 있지만 머스크는 그록을 테슬라 차량에 탑재할 예정이라고 언급했다. 관련 내용은 이곳에서 확인할 수 있다.