본문 바로가기
종목 리뷰

엔비디아 블랙웰 AI 서버, 냉각 문제로 출시 연기 가능성 대두

by 스푼님 2024. 11. 18.

 

엔비디아(NVIDIA)의 차세대 블랙웰(Blackwell) AI 서버가 냉각 문제로 인해 출시가 지연될 가능성이 제기되고 있습니다. 블랙웰 서버는 72개의 고성능 AI 칩을 하나의 랙에 통합하여 엄청난 연산 성능을 제공하는 시스템입니다. 그러나 최근 보고된 바에 따르면, 이 서버 랙에서 발생하는 과열 문제가 성능 저하 및 하드웨어 손상을 초래할 수 있어 엔비디아는 디자인 변경을 추진 중입니다.

## **블랙웰 AI 서버의 과열 문제**

블랙웰 AI 칩은 기존 H100 칩 대비 30배 이상의 성능을 제공하며, 대규모 AI 모델 훈련을 위한 데이터센터에 최적화된 제품입니다. 그러나 이 칩들이 고밀도 서버 랙에 설치될 때 과도한 열이 발생하는 문제가 보고되었습니다. 특히, 한 랙에 72개의 칩이 설치된 경우 최대 120kW의 전력을 소모하며, 이로 인해 열 관리가 어려워집니다.

과열 문제는 칩 성능을 제한할 뿐만 아니라 장기적으로 하드웨어 손상 위험도 높입니다. 이러한 이유로 엔비디아는 공급업체와 협력하여 서버 랙 디자인을 수차례 수정하고 있으며, 현재 냉각 효율성을 개선하기 위한 조치가 진행 중입니다.

## **출시 지연과 고객사의 우려**

블랙웰 서버는 이미 한 차례 출시가 연기된 바 있습니다. 초기에는 설계 결함으로 인해 출시가 2024년 2분기로 미뤄졌으나, 이번 과열 문제로 인해 추가적인 지연 가능성이 제기되고 있습니다. 주요 고객사인 마이크로소프트(Microsoft), 메타(Meta), 구글(Google) 등은 이 서버를 통해 자사의 AI 데이터센터를 구축하려고 계획하고 있었으나, 이번 문제로 인해 데이터센터 구축 일정이 차질을 빚을 수 있다는 우려가 커지고 있습니다.

엔비디아는 아직 공식적으로 고객사들에게 지연 여부를 통보하지 않았지만, 이번 과열 문제 해결이 늦어질 경우 추가적인 출시 연기가 불가피할 것으로 보입니다.

## **엔비디아의 대응**

엔비디아는 현재 공급업체들과 협력하여 서버 랙의 냉각 설계를 개선하고 있으며, 이는 대규모 기술 출시 과정에서 흔히 발생하는 문제라는 입장을 밝혔습니다. 또한, 엔비디아는 블랙웰 GPU의 대량 생산이 2024년 초부터 본격화될 예정이라고 발표한 바 있어, 최종 출시는 2025년 초로 예상됩니다.

## **결론**

엔비디아의 블랙웰 AI 서버는 AI 연산 성능에서 획기적인 발전을 이루었지만, 과열 문제로 인해 출시 일정이 불확실한 상황입니다. 엔비디아는 이를 해결하기 위해 공급업체와 긴밀히 협력하고 있지만, 고객사들은 데이터센터 구축 계획에 차질이 생길 것을 우려하고 있습니다. 향후 엔비디아가 이 문제를 얼마나 신속하게 해결할 수 있을지가 관건이며, 이는 AI 산업 전반에 큰 영향을 미칠 수 있습니다.