x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

엔비디아 GPU인 RTX 5090과 RTX PRO 6000에 재현 가능한 불량이 있다며 클라우드 GPU 서비스를 제공하는 클라우드리프트(CloudRift)가 문제 해결에 1,000달러 현상금을 마련했다.

클라우드리프트에 따르면 블랙웰(Blackwell)을 탑재한 RTX 시리즈 2개 제품에는 가상 머신에서 사용할 때 응답불능이 된다는 버그가 있다고 한다.

이 버그는 KVM과 VFIO를 사용해 GPU를 가상 머신에 전달한 후 발생한다. 게스트 OS 셧다운 시나 GPU 재할당 시 호스트는 패스스루 디바이스의 클린업 표준 절차인 PCIe 기능 레벨 리셋(FLR)을 발행하지만 GPU는 정상 상태로 돌아오지 않고 응답불능에 빠지며 FLR 후 65535밀리초가 경과해도 준비 완료되지 않아 처리가 포기된다고 한다. 클라우드리프트에 따르면 전원을 재투입하는 것 외에는 복구 수단이 없는 것으로 보인다.

클라우드리프트 측은 RTX 4090 등 구세대 모델에서는 발생하지 않는다는 점에서 RTX 5090 및 RTX PRO 6000 특유의 문제라고 지적한다. 커뮤니티에서는 RTX 5090 일반 사용자나 조기 구매자도 유사한 현상에 마주쳤다는 내용이 시사되고 있다고 한다. 엔비디아는 이 문제를 공식적으로 인정하지 않고 있으며 회피책도 존재하지 않는다.

클라우드리프트는 유효한 완화책이나 수정안을 제공한 자에게 1,000달러 현상금을 지급한다고 발표하며 문제 해결 방안을 모색하기 위한 협력을 요청했다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post