Skip to main content

AI 서버 전원 시스템에서 커패시터 고장을 방지하기 위한 방안

글/빌 슈위버(Bill Schweber)


[출처] Vadym/stock.adobe.com; AI로 생성

 

더 빠르고 더 스마트하며 더 강력한 인공지능(AI) 서버를 구축하기 위한 경쟁에서, 설계 엔지니어들은 그래픽 처리 장치(GPU), 텐서 처리 장치(TPU), 고속 인터커넥트와 같은 핵심 부품에 주목하는 경우가 많다. 그러나 그 이면에서는 커패시터와 같은 수동 부품이 시스템의 안정성을 조용히 지탱하고 있다. 커패시터가 고장 나면 그 여파는 시스템 전체로 확산된다. 전압 레귤레이터는 제대로 작동하지 않고, 프로세서가 멈추며, 서버는 오프라인 상태로 전환된다. 놀라운 것은 이러한 고장이 커패시터가 엄격한 실험실 테스트를 통과했음에도 불구하고 발생한다는 것이다.

왜 이런 일이 일어나는 걸까? 이 글에서는 실험실 테스트를 통과한 커패시터와 같은 수동 부품이 실제 환경에서 고장나는 이유를 살펴보고, 고부하 AI 서버 환경에 적합한 수동 부품을 선택함으로써 이러한 고장을 줄일 수 있는지에 대해 논의한다.

 

AI 서버의 가혹한 작동 환경

AI 서버는 대부분의 커패시터가 테스트되는 조건보다 훨씬 더 가혹한 환경에서 동작한다. 높은 온도와 습도, 그리고 극심한 전력 밀도는 부품의 열화를 가속화하는 완벽한 조건을 만든다. 데이터센터에서는 주변 온도가 50 ~ 60℃를 넘을 수가 있고, 프로세서 주변의 국부적인 열점은 100℃를 훌쩍 넘는 경우도 있다. 여기에 공기 냉각기나 액체 냉각 시스템에서 발생하는 수분이 더해지면, 표준 인증 테스트를 통과한 부품이라도 빠르게 마모가 진행될 수 있는 환경이 조성된다.

 

표준 커패시터가 실제 현장에서 고장나는 이유

커패시터의 고장 원인을 이해하려면, 먼저 커패시터에 대한 일반적인 오해부터 짚고 넘어갈 필요가 있다. 교과서에서는 커패시터를 단순히 두 개의 도전성 판 사이에 유전체가 끼워진 간단한 부품으로 설명하지만, 커패시터의 실제 구조는 이보다 훨씬 더 다양하고 복잡하다.

 

커패시터에는 여러 종류가 있는데, 그중 대표적인 세 가지 그룹과 각각의 주요 고장 형태는 다음과 같다.

• 흔히 ‘습식’ 알루미늄 전해 커패시터로 불리는 벌크 커패시터는 수십에서 수백 마이크로패럿(μF), 때로는 수천 μF에 달하는 비교적 큰 용량을 가진다. 이들은 DC 레일의 리플(ripple)을 제거하고 부하 변화에도 일정한 직류 전압을 유지하는 역할을 한다. 그러나 시간이 지나면서 내부 전해액이 증발하거나 손실되어 등가직렬저항(ESR)이 증가하고, 그 결과 전압 리플과 발열이 커지며, 열 폭주(thermal runaway)라 불리는 자기 강화형 고장으로 이어질 수 있다.

• 폴리머 커패시터는 기존의 액체 전해질 대신 도전성 폴리머를 알루미늄 산화막 유전체 위의 양극층(cathode layer)으로 사용한다. 낮은 ESR과 안정적인 성능 덕분에 고주파 및 저임피던스 애플리케이션에 적합하다. 주요 고장 메커니즘은 폴리머의 산화로, 열적 또는 전압 스트레스 하에서 ESR이 증가하고 용량이 점차 감소한다. 

• 다층 세라믹 커패시터(MLCC)는 세라믹 유전체와 금속 전극층을 적층하여 낮은 ESR과 소형화를 동시에 구현한다. 디커플링 및 필터링 용도로 널리 사용되며, Class II 제품은 DC 바이어스 하에서 유효 용량이 크게 감소할 수 있고 기계적 균열에도 취약하다. 반면 Class I 제품은 온도 및 전압 안정성이 우수해 보다 안정적인 특성을 제공한다.

 

사실, 커패시터와 그 명칭 체계는 다소 혼란스러울 수 있다. 어떤 경우에는 알루미늄, 세라믹, 플라스틱처럼 도전성 물질이나 유전체 재료로 구분되기도 하고, 또 어떤 경우에는 필름형, 다층형처럼 구조적 형태로 나누기도 한다. 이러한 분류는 종종 서로 겹치기도 한다.

커패시터는 반드시 완전히 고장나거나 단일한 고장 형태만을 보이는 것은 아니다. 정격 용량(패럿 값)이 크게 변할 수 있을 뿐 아니라, 그 외의 전기적 특성에도 변화가 생길 수 있다. 예를 들어 ESR이나 누설 전류가 증가하거나, 다른 중요한 파라미터가 달라질 수 있다.

커패시터는 겉보기에는 단순한 부품처럼 보이지만, 여러 가지 잠재적인 고장 지점을 가질 수 있다는 점을 간과해서는 안 된다(그림 1).


[그림 1] 개념적으로는 단순해 보이지만, 커패시터 역시 다른 전자 부품들과 마찬가지로 다양한 고장 원인, 형태, 영향, 그리고 결과를 가진다. 그림은 금속 증착 필름 커패시터의 여러 고장 요인을 예시한 것이다. (출처: CERN, CC BY 4.0 http://creativecommons.org/licenses/by/4.0/)

[1]
 
커패시터의 성능 변화는 프로세서 속도 저하, 노이즈로 인한 신호 문제, 전압 레귤레이터 불안정, 시스템의 불규칙한 동작, 나아가 서버 전체의 시스템 중단으로 이어질 수 있다. 이러한 현상은 서비스 가용성(SLA)과 고객 워크로드에 직접적인 악영향을 미칠 수 있다. 더 큰 문제는 이러한 시스템 장애가 간헐적으로 발생하거나 원인과 결과의 명확한 연관성이 드러나지 않아 진단이 매우 어렵다는 점이다.

 

테스트 표준 vs AI 서버 환경

커패시터의 신뢰성은 일반적으로 105℃에서 2,000시간과 같은 스트레스 조건을 모사한 표준화된 테스트를 통해 평가된다. 그러나 이러한 테스트는 대부분 리플 전류가 없는 건조 오븐에서, 습도가 제어된 환경 하에 수행된다. 실제 AI 서버의 작동 환경과는 다소 차이가 있는 셈이다. 이러한 표준 테스트에는 테스트 전·중·후의 설정과 절차를 세부적으로 규정한 다음과 같은 여러 가지 커패시터 평가 기준이 적용된다: 

 

• IEC 60384-4는 알루미늄 전해 커패시터에 대한 국제 표준으로, 기본 규격과 더불어 특정 커패시터 유형과 용도에 맞춘 세부 규격을 규정한다.

• MIL-STD-202는 열충격 테스트와 습도 테스트를 포함하여, 커패시터 테스트에 대한 다양한 평가 절차를 제시한다.

• MIL-PRF-55681은 50V 및 100V 정격의 0805 ~ 2225 크기 표면실장형 커패시터를 대상으로 한 범용 군수용 고신뢰성 규격이다.

• MIL-PRF-123은 MIL-PRF-55681보다 더 높은 신뢰성을 요구하는 우주, 미사일 분야, 그리고 의료용 임플란트나 생명 유지 장비 등 고신뢰성 응용 분야를 위한 표준이다.

• EIA IS-749는 일부 제조사들이 커패시터의 장착 방식, 공기 흐름, 수명 종료(EOL) 조건 등을 구체적으로 정의할 때 사용하는 표준이다.

 

이러한 표준과 테스트 절차는 매우 포괄적이고 세밀하며, 성능 비교의 기준으로서 유용하지만 실제 AI 서버 환경의 복잡하고 가혹한 현실을 충분히 반영하지는 못한다. 현대의 AI 서버는 24시간 365일 연속으로 동작하며, 열적 스트레스뿐 아니라 응결을 유발할 수 있는 높은 습도 환경에도 노출된다.

ASHRAE 가이드라인에 따르면 데이터센터의 권장 온도는 18 ~ 27℃ 범위에 있어야 한다.[2] 그러나 실제로는 랙당 전력 밀도가 30 ~ 50kW에 달하고,[3] 가까운 미래에는 클러스터 전체가 1,000kW에 이를 것으로 예상된다.[4] 이러한 상황에서는 열 방출이 커다란 과제가 된다. 또한 ASHRAE 기준은 최대 15℃의 이슬점까지 허용하므로, 습기의 침투가 실제로 발생할 가능성이 매우 높다. 이런 환경에서는 실험실 테스트로는 재현하기 어려운 커패시터의 열화 현상이 나타난다.

특히 습도와 리플 전류는 커패시터에 치명적인 영향을 미친다. 수분은 포장 재료를 열화시키고, 리플 전류는 커패시터 내부 구조에 스트레스를 준다. 이 두 요인이 결합되면, 실험실 환경에서는 거의 발생하지 않는 고장 메커니즘이 현장에서 빠르게 가속된다.

 

더 적합한 규격으로 개선된 새로운 제품

데이터센터 환경에서 커패시터가 직면하는 문제를 인식한 YAGEO 그룹은 AI 서버 애플리케이션에 최적화되고 평가된 새로운 커패시터 제품을 선보였다. A798 알루미늄 오가닉 커패시터(AO-CAP®)는 높은 습도와 온도 조건에 견딜 수 있도록 설계된 고체형 알루미늄 커패시터로, AI 서버의 혹독한 동작 환경을 감당할 수 있도록 제작되었다. 이 제품은 2V ~ 2.5V의 정격 전압을 가지며, 150µF ~ 470µF 범위의 정전 용량으로 제공된다. 이들은 극성 구조를 갖추고 있으며, 7.3mm × 4.3mm × 1.9mm(L × W × H)와 7.3mm × 4.3mm × 2.8mm의 두 가지 초소형 패키지로 구성되어 공간 효율성과 성능을 동시에 확보하고 있다.

A798 커패시터의 양극은 고체 도전성 유기 폴리머로 구성되어 있어 매우 낮은 ESR과 고주파에서의 우수한 용량 유지 특성을 제공한다. 액체 전해질이 사용되지 않기 때문에, A798은 긴 수명과 높은 동작 온도를 동시에 실현한다. 이러한 낮은 ESR 특성 덕분에, 일반적으로 커패시터 열화를 유발하는 높은 리플 전류도 안정적으로 처리할 수 있다.

A798의 구조는 알루미늄 요소를 적층한 형태로 되어 있으며, 그 표면에는 유전체 Al2O3 층과 폴리머 보조 전극이 형성되어 있다. 외부 층은 탄소와 은으로 구성되어 전기적 전도성과 내구성을 강화한다(그림 2).

 


[그림 2] A798 시리즈 커패시터는 첨단 소재, 정교한 설계, 향상된 구조 구현을 통해 AI 서버의 가혹한 조건에서도 높은 정전 용량과 긴 수명을 제공한다. (출처: YAGEO Group)
 
내부적으로는 여러 겹의 금속 포일이 적층되어 있으며, 이러한 구조가 매우 낮은 ESR 특성을 만들어내는 핵심 요소로 작용한다(그림 3).

 


[그림 3] A798 커패시터의 단면도는 정전 용량 기능을 구현하는 데 필요한 여러 내부 구성 요소를 보여준다. (출처: YAGEO Group)
 
A798 시리즈는 설계 개선과 소재 업그레이드를 통해 정격 전압 조건에서 85℃의 작동 온도와 85%의 상대 습도(RH) 환경에서 1,000시간의 내구성을 확보하도록 제작되었다. 또한 125℃의 고온에서도 긴 수명과 안정적인 보관 특성을 유지한다. A798은 작은 패키지 크기, 높은 리플 전류 허용 능력, 고온 환경에서의 동작 안정성, 낮은 기생 성분, 그리고 수명 전반에 걸친 정전 용량 안정성 덕분에 고부하 AI 서버 애플리케이션에 최적의 커패시터 솔루션으로 평가된다.

 

결론

커패시터는 고부하 AI 워크로드의 안정적인 동작을 보장하는 핵심 요소이다. 고장은 종종 품질의 문제라기보다, 표준화된 실험실 테스트가 현대 데이터센터의 가혹한 현실을 완전히 반영하지 못하는 데서 비롯된다. 표준 테스트는 개별적인 스트레스 요인을 측정할 수는 있지만, 실제 AI 서버 환경에서는 열 주기, 리플 전류, DC 바이어스, 습도, 국소 열점 등 여러 요인이 동시에 작용하며, 이러한 복합적인 조건은 실험실 환경에서 완벽히 재현되기 어렵다.

시스템의 전력 밀도가 계속 높아지는 오늘날, 설계 엔지니어는 커패시터의 모든 한계를 충분히 이해하고, 실험실을 넘어 실제 환경에서도 검증된 성능을 제공하도록 설계된 부품을 선택해야 한다. 이것이 바로 AI 서버의 신뢰성과 지속적인 가동을 보장하는 최선의 방법이다. 

 

[참고문헌]

[1] http://dx.doi.org/10.5170/CERN-2015-003.45
[2] https://www.ashrae.org/file%20library/technical%20resources/bookstore/ashrae_tc0909_power_white_paper_22_june_2016_revised.pdf
[3] https://174powerglobal.com/blog/how-ai-changes-data-center-design-forever/
[4] https://www.datacenterdynamics.com/en/news/hyperscalers-prepare-for-1mw-racks-at-ocp-emea-google-announces-new-cdu/