10월 20일 15시 49분경부터 AWS(Amazon Web Services) us-east-1 리전에서 대규모 장애가 발생했다. 이 영향으로 아마존을 비롯해 클라우드 기반 서버에서 데이터를 호스팅하는 전 세계 앱과 인터넷 서비스, 닌텐도 스위치 온라인 등 온라인 게임 시스템 등 다수 서비스가 중단을 면치 못했다. 지금은 이미 복구됐으며 원인 특정이 진행 중이다.
아마존 us-east-1 리전은 미국 북부 버지니아주 라우던 카운티에 있는 세계 최대 규모 데이터센터 집적지인 데이터센터 앨리(Data Center Alley)에 위치한다. 이 지역에 데이터센터가 집중하는 이유는 연방정부와의 근접성과 세제 우대 조치가 있으며 그 중에서도 일정 투자액과 고용을 조건으로 기기·소프트웨어 판매세 면제를 받을 수 있는 제도가 AWS 등 신속하게 확대를 뒷받침하고 있다.
AWS에 따르면 10월 20일 15시 49분부터 18시 24분까지 us-east-1 리전 오류율과 레이턴시가 증가했다고 한다. 이 장애는 Amazon.com과 관련 자회사, 나아가 AWS 지원센터 케이스 생성 기능에도 영향을 미쳐 고객이 지원 티켓을 생성할 수 없는 상황이 됐다. 또 아마존과 아마존 프라임 비디오, 아마존 방범 카메라 서비스인 링(Ring), 아마존 AI 어시스턴트인 알렉사가 다운되는 사태로 발전했다.
더구나 AWS에 데이터베이스를 둔 서비스는 줄줄이 이 장애 영향을 받아 일시 중단에 내몰렸다. 예를 들어 애플 앱스토어도 다운됐다. 영국 정부 공식 사이트도 접속할 수 없는 상태가 됐다. 영국 대형 금융사인 로이즈 은행도 서비스 대부분이 장애 영향을 받아 다운된 것으로 보인다.
게임 포트나이트는 로그인을 할 수 없는 상태가 됐다고 한다. 클라우드플레어 레이더(Cloudflare Radar(는 이번 AWS us-east-1 리전 장애의 영향으로 트래픽이 평상시보다 71% 감소했다고 보고했다. 한편 엑스는 다운을 피했다. 엑스 소유주인 일론 머스크는 엑스는 작동하고 있다고 포스팅하기도 했다. 더 나아가 엑스 메시지는 완전히 암호화되어 있으며 광고나 이상한 AWS 의존성이 전혀 없고, 설령 누군가 자신의 머리에 총을 들이댄다 해도 메시지를 읽을 수 없다며 기회를 놓치지 않고 엑스 챗을 어필했다. 또 경제지 블룸버그는 독자적인 데이터센터를 보유하고 있어 장애의 영향을 회피했다고 한다.
10월 20일 17시 26분 문제 발생원이 DynamoDB 리전 엔드포인트에서의 DNS 해석 오류라고 특정됐다. AWS 엔지니어가 동시에 여러 경로로 복구 작업을 진행해 18시 24분까지 DNS 장애를 해소했으며 이 시점에서 각 서비스는 회복을 시작했다.
https://platform.twitter.com/widgets.jsthe AWS outage is affecting Ring doorbells. Sky News says “some users can’t see outside their house, definitely scary”
— Tom Warren (@tomwarren) October 20, 2025
just look outside your window 😅 pic.twitter.com/mylipDe7S4
다만 DNS 장애 해소 후에도 DynamoDB에 의존하는 EC2 내부 서브시스템에 장애가 남아 신규 인스턴스 시작에 실패하는 현상이 계속됐다고 한다. 이것이 파생적으로 NLB(Network Load Balancer) 헬스 체크 메커니즘에 지장을 주어 Lambda, DynamoDB, CloudWatch 등 네트워크 연결에 광범위한 영향이 발생했다. AWS는 복구를 원활히 진행하기 위해 EC2 신규 시작이나 SQS 큐 경유 Lambda 이벤트 처리, 비동기 Lambda 호출 등 일부 작업을 일시적으로 제한했다.
17시 38분에는 NLB 헬스 체크 메커니즘이 회복되어 네트워크 연결성이 개선됐다. 23시대부터 익일 21일 4시에 걸쳐 EC2 인스턴스 시작 성공률이 상승했고 Lambda 함수 호출 오류도 순차적으로 해소됐다. 21일 오전 4시~6시에는 Redshift와 ECS, Glue 등 EC2 의존 서비스도 정상화를 향해 나아갔고 제한이 단계적으로 해제됐다.
https://platform.twitter.com/widgets.jsApp Store is down.
— Ryan Jones (@rjonesy) October 20, 2025
🧐 Fishy pic.twitter.com/2iIf1471Tt
10월 21일 7시 1분에는 모든 AWS 서비스가 정상 가동으로 돌아왔다. AWS Config, Redshift, Connect 등 일부 서비스에서는 백로그 처리가 수 시간 계속됐지만 전체적으로는 완전 복구로 간주됐다.
아마존은 이번 장애는 us-east-1 리전에서의 DynamoDB 서비스 엔드포인트 DNS 해석 오류가 주원인이라고 밝혔으며 이 장애가 의존 관계를 통해 EC2 내부 서브시스템과 네트워크 로드 밸런서 헬스 체크 메커니즘으로 파급된 게 원인이라고 설명했다. AWS는 향후 상세한 사후 보고서(post-event summary)를 공표할 예정이라고 밝혔다.
이번 장애는 AWS가 다수 데이터센터를 전 세계에 전개하고 있음에도 불구하고, 많은 기업이 기본적으로 us-east-1 리전을 이용하는 설계로 되어 있었기 때문에 us-east-1 리전이 SPOF화되어 버린 데 있다.
us-east-1은 AWS 초기부터 가동된 가장 오래된 리전이며 Route 53과 CloudFront 등 인터넷 전체 기간 인프라도 이 리전을 경유한다. 그래서 일부 고객이 다른 리전을 지정하더라도 간접적으로 us-east-1 경유 통신을 이용하는 경우가 많다. AWS us-east-1 리전이 실질적인 인터넷 중추가 되어 있는 상태가 단시간의 장애라 하더라도 글로벌 규모 혼란을 초래하기에 이른 것이라 할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 네이버클라우드, ‘라인웍스’ 대만 정식 출시‧식봄, 외식업 자영업자에 쌀 할인](https://startuprecipe.co.kr/wp-content/uploads/2025/10/251022_wavewear.kr_500325-75x75.jpg)

