국내 최초 스팟 GPU 요금제 출시

(4월 한정) H100・B200 21% 할인 프로모션

Elice Brand Logo

InfiniBand vs RoCEv2 실측 비교 — 대규모 AI 학습 클러스터의 네트워크 선택


대규모 언어 모델(LLM)의 사전학습과 같은 멀티노드 GPU 워크로드에서 실제 병목은 더 이상 GPU 단일 장치의 성능만이 아닙니다. 수십 대의 노드가 매 스텝마다 수백 GB 단위의 그래디언트를 주고받아야 하는 상황에서는 노드 간 네트워크가 학습 속도를 좌우하는 결정적인 요인으로 작용합니다. 이 때문에 GPU 클러스터 인프라를 설계할 때 InfiniBand 또는 RoCEv2(RDMA over Converged Ethernet) 중 무엇을 선택할지는 초기 단계에서부터 신중히 검토해야 할 문제입니다.

현재 대규모 AI 클러스터에서 실질적인 선택지는 InfiniBand와 RoCEv2 두 가지입니다. 각기 다른 설계 철학과 생태계를 가진 두 기술이 실제 AI 학습 워크로드에서 어떤 차이를 보이는지는 운영 환경마다 크게 달라지므로, 현장에서 실측한 데이터가 중요한 의미를 가집니다. 엘리스클라우드는 InfiniBand 패브릭과 RoCEv2 기반 이더넷 패브릭을 모두 운영하고 있어, 동일한 NCCL 벤치마크 조건에서 두 네트워크의 집단 통신(collective communication) 성능을 정량적으로 비교했습니다.

이번 글에서는 두 네트워크 구성을 최대 12노드 / 96 GPUs(공통 비교 구간), 그리고 최대 30노드 / 240 GPUs(RoCEv2 확장 구간) 규모까지 실측한 결과를 바탕으로, InfiniBand와 RoCEv2가 실제 워크로드에서 보여주는 차이와 각 구성의 의미를 정리했습니다.

핵심 요약

  • 대역폭 지배 연산(AllReduce, AllGather)에서 RoCEv2가 InfiniBand와 동등하거나 최대 +16%까지 우위
  • AlltoAll에서는 InfiniBand가 약 4% 소폭 우위이나, 실사용 체감으로 이어질 수준은 아님
  • 512 GPU 패브릭 구축에 필요한 장비 수량: RoCEv2가 InfiniBand 대비 스위치 −96%, 트랜시버 −40%, 광케이블 −50%
  • AlltoAll에서는 InfiniBand가 약 4% 소폭 우위이나, 실사용 체감으로 이어질 수준은 아님
  • 512 GPU 패브릭 구축에 필요한 장비 수량: RoCEv2가 InfiniBand 대비 스위치 −96%, 트랜시버 −40%, 광케이블 −50%
  • InfiniBand는 사실상 NVIDIA 단일 벤더 의존, RoCEv2는 다벤더 이더넷 생태계 + UEC 표준화 흐름

왜 다시 네트워크인가

단일 노드 학습에서는 GPU 간 통신이 NVLink 및 NVSwitch 내부에서 이루어지기 때문에 외부 네트워크가 영향을 주지 않습니다. 그러나 노드를 2대 이상 묶는 순간, AllReduce 한 번만 수행해도 노드 간 링크를 수십 번 왕복하게 되며, 이 구간의 대역폭과 지연 시간이 전체 처리량을 좌우하기 시작합니다.

대표적인 구성은 다음과 같습니다.

  • InfiniBand(인피니밴드): RDMA를 네이티브로 지원하는 전용 인터커넥트입니다. 지연 시간이 낮고, 혼잡 제어(congestion control)가 프로토콜에 내장되어 있어 HPC 환경에서 오랫동안 검증되어 왔습니다. 다만 전용 스위치, 케이블, NIC이 필요하며, 기존 이더넷 인프라와는 분리된 체계로 운영해야 하고, NDR 세대 스위치 및 NIC은 사실상 NVIDIA(2020년 Mellanox 인수 이후) 단일 벤더 공급망에 의존하므로 수급, 가격, 로드맵 측면의 벤더 락인 리스크가 존재합니다.

  • RoCEv2: 이더넷 위에서 RDMA를 동작시키는 표준입니다. L3 라우팅이 가능하고 일반 이더넷 스위치와 호환되므로 데이터센터 네트워크와 통합 운영이 쉬우며, 고집적 이더넷 스위치를 활용해 토폴로지를 단순화할 수 있습니다. 또한 스위치 및 NIC 공급 벤더가 Broadcom, NVIDIA, Arista, Cisco, Marvell 등으로 다변화되어 있어 조달 유연성이 큽니다. 무손실 전송을 위해 PFC(Priority Flow Control)과 ECN(Explicit Congestion Notification)의 초기 튜닝이 필요합니다.

따라서 두 기술 중 어떤 것이 AI 워크로드에 더 적합한지는 단순 사양 비교로는 답하기 어렵고, 실제 집단 통신 성능을 직접 측정해봐야만 답할 수 있습니다.

테스트 환경

이번 벤치마크는 엘리스클라우드의 실제 운영 클러스터 두 곳에서 동일한 NCCL 테스트 스크립트로 수행되었습니다. 환경은 다음과 같습니다.

항목InfiniBand 구성RoCEv2 구성
노드당 GPU88
노드당 NICConnectX-7 × 8 (각 400G NDR)ConnectX-7 × 8 (각 400G)
노드 간 네트워크InfiniBand (RDMA Plugin v11)RoCEv2 (RDMA Plugin v11)
스위치 토폴로지512 GPU 규모 2-tier leaf-spine512 GPU 규모 single-tier (800G 섀시, 400G 포트 분할)
Socket interfacebond0bond0
NCCL2.29.7+cuda13.22.29.7+cuda13.2
nccl-tests2.18.22.18.2
메시지 크기8 MB – 8 GB8 MB – 8 GB
측정 스케일최대 12노드 / 96 GPUs (512 GPU 패브릭 내)최대 30노드 / 240 GPUs (512 GPU 패브릭 내)

두 환경 모두 각 노드에 ConnectX-7 NIC 8장을 장착해 GPU당 전용 NIC를 배정하는 rail-optimized 구조를 사용했고, 링크 속도(400G), NCCL 빌드, 플러그인, 튜닝 변수도 동일하게 맞추었습니다.

스위치 토폴로지는 두 구성이 서로 다르지만, 이는 의도적인 차별화가 아니라 각 기술이 512 GPU를 수용할 때 선택 가능한 최소 계층을 그대로 반영한 결과입니다.

  • InfiniBand (2-tier leaf-spine): NDR 기반 Quantum-2 스위치는 최대 64포트를 제공하므로, 512 GPU 규모를 하나의 스위치로 수용하는 것이 물리적으로 불가능합니다. 따라서 leaf-spine 2-tier 구성이 필수이며, 이는 IB 고유의 제약이지 특정 비교를 유리하게 하기 위한 선택이 아닙니다.
  • RoCEv2 (single-tier): 최신 이더넷 스위치는 단일 섀시에 576포트 × 800G를 제공하므로, 400G breakout을 활용하면 하나의 스위치만으로 최대 1,152개의 400G 링크를 수용할 수 있습니다. 따라서 512 GPU 규모는 추가 계층 없이 single-tier로 수용됩니다.

실제 비교 포인트는 2노드 – 12노드 구간입니다. 1노드 / 8 GPU 구성은 노드 내부 NVLink 통신만으로 처리되어 노드 간 네트워크(InfiniBand/RoCEv2)가 전혀 관여하지 않기 때문에, 이번 비교에서는 1노드 결과를 분석 대상에서 제외하고 2노드 이상 구간에 한정해 두 네트워크의 차이를 해석합니다.


실제 구축 모습

앞서 설명한 토폴로지 차이는 실제 랙 앞에서 육안으로 바로 드러납니다. 아래 사진은 두 구성에서 512 GPU 패브릭 중 256 GPU에 해당하는 절반 구간을 촬영한 것입니다. InfiniBand 구성은 사진과 동일한 랙을 하나 더 배치해야 512 GPU 패브릭이 완성되며, 이더넷 구성은 스위치에 연결되어야 할 링크 중 절반만 연결된 상태입니다.

[테크블로그]실측비교_2604-1.png
InfiniBand 구성: 2-tier leaf-spine 구조 탓에 다수의 스위치와 leaf-spine 간 연결 케이블이 한 랙에 집중되어 있습니다. 케이블 밀도와 트랜시버 수가 많고, 랙 점유 면적과 포트 관리 부담도 자연스럽게 커집니다.

[테크블로그]실측비교_2604-2.png
RoCEv2(이더넷) 구성: single-tier로 완결되기 때문에 동일 규모를 단일 섀시에서 수용하고 있으며, leaf-spine 간 추가 배선이 아예 존재하지 않습니다. 그 결과 케이블, 트랜시버 수, 배선 복잡성, 장애 지점, 운영 부담이 모두 줄어듭니다.

사진의 밀도 차이는 실제 배치된 부품 수로도 그대로 나타납니다. 아래 표는 512 GPU(64노드 × 8 NIC, 총 512개 400G 링크) 규모 논블럭킹(non-blocking) 패브릭을 실제 구축할 때 투입된 장비 구성입니다.

구성요소InfiniBand (2-tier leaf-spine)RoCEv2 (single-tier)감소
스위치24대 (leaf 16 + spine 8)1대 (576P × 800G 섀시)-96%
트랜시버1,280개 (서버 400G OSFP 512 + 스위치 2×400G OSFP 768)768개 (서버 400G OSFP 512 + 스위치 2×400G OSFP 256)-40%
광케이블1,024가닥 (리프-서버 512 + 리프-스파인 512)512가닥 (서버-스위치 512)-50%

구성 내역: IB 패브릭은 NDR Quantum-2 기반으로 구축되었습니다. 스위치 한 대가 32개 OSFP 케이지(포트당 2×400G, 총 64 × 400G)를 제공하므로, 서버 NIC 측에는 단일 포트 400G OSFP, 스위치 측에는 듀얼 포트 2×400G OSFP 트랜시버를 사용했습니다.
레일-최적화 논블럭킹 토폴로지(리프 16 + 스파인 8, 레일당 32포트 down / 32포트 up)로 배치했고, 스위치 측 듀얼 포트 모듈 1개에 400G 케이블 2가닥을 독립적으로 연결하여, 각 400G 링크가 하나의 물리 케이블과 일대일로 대응되도록 했습니다. 그 결과 리프-서버 512가닥, 리프-스파인 512가닥이 투입되었습니다.
RoCEv2 패브릭도 동일한 원리로, 576포트 × 800G 단일 섀시에서 각 800G 포트를 듀얼 포트 2×400G OSFP로 채워 스위치 측 256개 모듈로 512개의 400G 링크를 서버 NIC에 직결하도록 구축되었습니다.

스위치 수가 96% 줄어든다는 것은 단순 비용 문제를 넘어 장애 지점 감소, 설정 관리 단순화, 랙 전력/냉각 부담 감소까지 의미합니다. 트랜시버는 40%, 물리 케이블은 50% 감소하기 때문에 초기 CAPEX뿐 아니라 장기 유지보수 비용과 배선 복잡도 측면에서도 구조적으로 다릅니다.

벤치마크 방법

네트워크 성능은 NVIDIA의 nccl-tests를 이용해 측정했습니다. AI 분산 학습에서 실제로 사용되는 다섯 가지 집단 통신 패턴을 모두 포함했습니다.

  • AllReduce: 분산 학습에서 그래디언트를 합산할 때 가장 빈번하게 사용되는 연산
  • AllGather: 각 랭크의 파라미터를 모든 노드에 모으는 연산 (FSDP, ZeRO 등에서 사용)
  • AlltoAll: MoE 전문가 라우팅이나 시퀀스 병렬에서 핵심적으로 사용되는 연산
  • Hypercube: 토폴로지 기반 교환 패턴의 참고 벤치마크
  • SendRecv: 파이프라인 병렬에서 사용되는 점대점 통신 벤치마크

성능 지표로는 Bus Bandwidth(BusBW, GB/s)를 사용했습니다. BusBW는 알고리즘 구조의 차이를 보정하여 네트워크가 실제로 얼마나 일하고 있는지를 비교할 수 있게 해주는 표준 지표입니다. 메시지 크기는 8 MB부터 8 GB까지 2배씩 증가시키면서 측정했고, 본문에서는 대표값으로 8 GB 구간의 결과를 중심으로 정리했습니다.

벤치마크 결과

결과 1 — AllReduce: 가장 중요한 연산, 사실상 동등

AllReduce는 LLM 학습에서 가장 자주 발생하는 집단 통신입니다. 8 GB 메시지 크기를 기준으로, 노드 간 네트워크가 실제로 개입하는 2노드 이상 구간의 BusBW는 다음과 같았습니다.

구성GPUsInfiniBand (GB/s)RoCEv2 (GB/s)차이
2노드16364.62367.21+0.7%
4노드32362.14368.34+1.7%
8노드64363.70369.29+1.5%
12노드96358.68368.81+2.8%

2노드부터 12노드까지 모든 구간에서 두 네트워크는 0.7–2.8% 범위의 근소한 차이만을 보였으며, 네 구간 모두 RoCEv2가 일관되게 소폭 앞섰습니다.

즉, AllReduce처럼 대역폭 지배적인(bandwidth-bound) 워크로드에서는 두 네트워크가 사실상 동일한 성능을 냅니다. LLM 사전학습의 핵심 연산이 바로 이 AllReduce라는 점에서, 두 네트워크의 실사용 성능 격차는 체감 단계에서 크지 않다고 볼 수 있습니다.

결과 2 — AllGather: RoCEv2가 오히려 약 +15% 우위

FSDP나 ZeRO-3 기반 학습에서 빈번하게 사용되는 AllGather에서는 예상과 다른 결과가 나왔습니다.

구성GPUsInfiniBand (GB/s)RoCEv2 (GB/s)차이
2노드16314.71367.12+16.7%
4노드32321.25372.85+16.1%
8노드64325.79373.99+14.8%
12노드96316.87367.64+16.0%

모든 멀티노드 구간에서 RoCEv2가 14–17%가량 더 높은 BusBW를 기록했습니다. NIC(ConnectX-7)와 링크 속도(400G)가 동일하므로 이 차이는 링크 대역폭에서 기인한 것이 아니며, 토폴로지 계층 수의 차이(IB 2-tier leaf-spine vs RoCEv2 single-tier)와 해당 토폴로지에서의 혼잡 거동이 주요 원인일 가능성이 높습니다. 링 기반 AllGather는 rank 수에 비례하여 전송 단계가 반복되기 때문에 단일 홉의 지연 편차가 누적되어 성능에 영향을 주며, 이번 환경에서는 single-tier 구성이 이 조건에 더 유리하게 작용한 것으로 보입니다.

AllGather가 FSDP/ZeRO 학습의 기본 블록임을 고려하면, 파라미터 샤딩 기반 대규모 학습에서 RoCEv2 구성이 InfiniBand 대비 유의미한 이점을 가질 수 있다는 결과입니다.

결과 3 — AlltoAll: InfiniBand가 소폭 우위

MoE(Mixture of Experts) 라우팅이나 Sequence Parallel 등에서 사용되는 AlltoAll은 양상이 달랐습니다.

구성GPUsInfiniBand (GB/s)RoCEv2 (GB/s)차이
2노드1692.4491.58-0.9%
4노드3262.2460.37-3.0%
8노드6454.0752.23-3.4%
12노드9651.6949.29-4.6%

AlltoAll에서는 2노드부터 12노드까지 모든 구간에서 InfiniBand가 약 1–5% 우위를 보였습니다. AlltoAll은 모든 노드 쌍이 동시에 통신을 시도하기 때문에 네트워크 내 혼잡 제어가 직접적으로 성능에 영향을 미치며, InfiniBand의 credit-based flow control이 이런 조건에서 조금 더 안정적으로 동작한 것으로 해석할 수 있습니다.

격차 자체는 4% 내외로 작은 수준이며, AlltoAll이 MoE 기반 모델의 핵심 통신 패턴이라는 점을 고려하더라도 이 정도 차이가 실사용 학습 처리량에 유의미하게 반영될 가능성은 낮습니다.

결과 4 — Hypercube / SendRecv: 큰 차이 없음

Hypercube와 SendRecv의 경우 두 네트워크의 BusBW 차이는 ±5% 범위 내에서 수렴했습니다.

Hypercube (8 GB)

구성GPUsInfiniBand (GB/s)RoCEv2 (GB/s)차이
2노드1655.5656.01+0.8%
4노드3251.1051.59+1.0%
8노드6429.6229.56-0.2%
12노드96N/A †N/A †

*hypercube_perf는 랭크 수가 2의 거듭제곱이 아닌 경우(96랭크 등) 측정값을 산출하지 않아 12노드 구간은 비교 대상에서 제외했습니다.

SendRecv (8 GB)

구성GPUsInfiniBand (GB/s)RoCEv2 (GB/s)차이
2노드1650.5850.40-0.4%
4노드3250.6250.41-0.4%
8노드6433.4735.04+4.7%
12노드9616.9117.67+4.5%

Hypercube는 2–8노드에서 -0.2 – +1.0%의 근소한 차이만을 보였으며, SendRecv는 8노드, 12노드 구간에서 RoCEv2가 오히려 약 +4.5–4.7% 우위를 기록했습니다. 즉 이 영역에서는 두 네트워크 중 어느 쪽을 선택해도 체감 가능한 차이가 크지 않습니다.

결과 5 — 메시지 크기별 거동: 작은 메시지는 IB, 큰 메시지는 RoCEv2

지금까지의 결과는 8 GB 대표값 기준입니다. 그러나 실제 워크로드의 통신 크기는 8 MB–8 GB 전 구간에 걸쳐 분포하며, 메시지 크기에 따라 두 네트워크의 우열이 달라집니다. AllReduce를 대표로 공통 비교 구간의 최대 스케일인 12노드 / 96 GPUs 구성에서의 크기별 BusBW를 비교하면 다음과 같습니다.

메시지 크기InfiniBand (GB/s)RoCEv2 (GB/s)차이
8 MB62.9049.73-20.9%
16 MB91.2177.35-15.2%
32 MB113.8666.75-41.4%
64 MB97.70112.76+15.4%
128 MB181.17171.02-5.6%
256 MB223.90235.21+5.1%
512 MB240.51283.55+17.9%
1 GB297.28303.28+2.0%
2 GB329.91355.46+7.7%
4 GB344.45350.32+1.7%
8 GB358.68368.81+2.8%

32 MB 구간은 주변 구간 대비 RoCEv2의 성능 저하가 유독 크게 나타났습니다. NCCL 알고리즘, 버퍼 경계나 RoCE 혼잡 제어 거동이 특정 메시지 크기에서 다르게 반응한 결과로 추정되지만, 이번 벤치마크에서 직접 원인을 규명하지는 않았습니다. 다만 지연 지배 구간 전반에서 InfiniBand가 앞서는 경향 자체는 이 한 포인트를 빼고 봐도 동일합니다.

크기 구간별로 세 개의 영역이 나타납니다.

  • 8 MB – 32 MB (지연 지배 구간): InfiniBand가 15–41% 앞섭니다(단, 32 MB는 이상치 성격). 작은 메시지는 전송 시간보다 프로토콜 왕복 지연과 스케줄링 오버헤드가 전체 시간을 좌우하기 때문에, 저지연에 특화된 InfiniBand의 구조적 이점이 그대로 반영됩니다. GPU 수가 많아질수록 지연 누적 효과가 더 크게 나타나 작은 메시지 구간의 격차도 확대됩니다.

  • 64 MB – 512 MB (전환 구간): 두 네트워크가 교차 진동하며, 구간에 따라 한쪽이 최대 18%까지 앞서기도 합니다. 메시지 크기가 지연을 상쇄하면서 대역폭 지배 영역으로 넘어가는 과도 구간이며, 이 영역에서는 라우팅 및 혼잡 거동 같은 세부 요인이 결과를 크게 좌우합니다.

  • 1 GB 이상 (대역폭 지배 구간): 두 네트워크 모두 300–370 GB/s 범위로 포화되며, 차이는 RoCEv2가 +2–8% 수준에서 안정적으로 앞섭니다. 8 GB에서 RoCEv2가 소폭 우위를 보이는 양상은 이 포화 영역에서 수렴한 결과입니다.

이 구분은 앞선 결과들을 해석할 때 중요한 맥락을 제공합니다. LLM 사전학습에서 가장 비중이 큰 gradient AllReduce는 모델 크기에 비례해 수백 MB–수 GB 단위로 발생하고, FSDP/ZeRO 기반 파라미터 AllGather 역시 대부분 1 GB 이상 영역에서 이루어집니다. 따라서 실제 AI 학습의 주요 통신 구간은 대역폭 포화 영역에 걸쳐 있으며, 이 영역에서는 두 네트워크가 동등하거나 RoCEv2가 소폭 앞섭니다. 반면 수십 MB 이하 지연 지배 구간에서는 InfiniBand가 제공하는 저지연 특성이 실성능에서 뚜렷한 차이를 만들며, HPC, 과학 계산이나 소형 메시지 기반 통신이 많은 워크로드에서는 이 영역을 가볍게 볼 수 없습니다.


결과 6 — RoCEv2 확장성

RoCEv2 패브릭은 InfiniBand와의 공통 비교 구간(최대 12노드)을 넘어 최대 30노드 / 240 GPUs 규모까지 확장 측정을 진행했습니다. 이 구간은 InfiniBand 비교 대상이 없는 영역이기 때문에 RoCEv2 단독 스케일링 특성만 정리합니다. 8 GB 메시지 크기 기준 BusBW는 다음과 같습니다.

구성GPUsAllReduce (GB/s)AllGather (GB/s)AlltoAll (GB/s)SendRecv (GB/s)
2노드16367.21367.1291.5850.40
4노드32368.34372.8560.3750.41
8노드64369.29373.9952.2335.04
12노드96368.81367.6449.2917.67
16노드128370.30372.8647.7317.67
24노드192343.67345.7448.9817.70
30노드240322.88324.3648.4817.69

핵심은 다음과 같습니다.

  • AllReduce: 2–16노드까지 약 367–370 GB/s로 거의 일정하게 유지되며, 24, 30노드에서도 323–344 GB/s로 약 7–13% 감소 수준에 그쳤습니다.
  • AllGather: AllReduce와 유사한 패턴으로, 16노드까지 약 372 GB/s를 유지하고 30노드에서 약 324 GB/s(-13%)로 수렴했습니다.
  • AlltoAll: 12노드 이후 47–49 GB/s 수준에서 평탄화되는 특성을 보였습니다. 이는 많은 노드가 동시에 통신하는 조건에서도 대역폭이 추가로 붕괴되지 않음을 의미합니다.
  • SendRecv: 12노드 이후 17.67–17.70 GB/s로 완전히 평탄화되어, 스케일이 늘어나도 더 이상 저하되지 않았습니다.

즉 RoCEv2 패브릭은 스케일이 커질수록 급격히 성능이 붕괴되는 것이 아니라, 예측 가능한 범위 내에서 저하가 수렴하는 경향을 보였습니다.


결과 종합

전체 5가지 집단 통신 패턴을 2노드 – 12노드 공통 구간에서 다시 정리하면 다음과 같습니다.

연산InfiniBand 대비 RoCEv2 격차 (2–12노드, 8 GB 기준)해석
AllReduce+0.7% – +2.8%사실상 동등, 대규모 학습의 핵심 연산
AllGather+14.8% – +16.7%RoCEv2 유의미한 우위 (FSDP/ZeRO 유리)
AlltoAll-0.9% – -4.6%InfiniBand 소폭 우위, 실사용 체감 차이 미미
Hypercube-0.2% – +1.0%차이 없음
SendRecv-0.4% – +4.7%차이 미미, 일부 구간 RoCEv2 소폭 우위

대역폭이 지배하는 주요 집단 통신(AllReduce, AllGather)에서는 RoCEv2가 InfiniBand와 동등하거나 앞서고, AlltoAll에서만 InfiniBand가 소폭 우위에 있지만 실사용 체감으로 이어질 수준의 격차는 아닙니다. RoCEv2 패브릭은 결과 6에서 보인 것처럼 30노드 / 240 GPUs 규모까지 확장해도 BusBW 저하가 예측 가능한 범위 내에서 유지됩니다.

결론

이번 벤치마크를 종합하면, 대규모 AI 학습 워크로드에서 InfiniBand와 RoCEv2는 서로 다른 강점을 가진 두 축으로 나타났습니다. AllReduce, AllGather처럼 대역폭이 지배하는 주요 집단 통신에서는 RoCEv2가 InfiniBand와 동등하거나 앞섰고, AlltoAll과 수십 MB 이하 소형 메시지 구간에서는 InfiniBand가 소폭 우위를 보였습니다. AlltoAll 격차도 4% 내외로 작아 실사용 체감 수준의 차이로 보기는 어렵습니다.

성능이 유사한 만큼, 물리 구축 비용과 복잡도 측면에서는 RoCEv2 구성이 뚜렷한 이점을 보입니다. 동일 규모 512 GPU 패브릭을 실제로 구축했을 때 RoCEv2는 스위치 96%, 트랜시버 40%, 물리 케이블 50%가 적게 투입되며, 이는 초기 CAPEX, 장애 지점, 운영 부담, 랙 전력을 구조적으로 줄이는 요인이 됩니다. 여기에 이더넷 생태계와의 통합 운영성이라는 운영 측면의 장점도 더해집니다.

생태계 및 공급망 관점의 차이도 무시하기 어렵습니다. InfiniBand는 NVIDIA(Mellanox 인수 이후)가 사실상 단일 공급자이기 때문에 수급, 가격, 제품 로드맵이 특정 벤더에 종속되는 반면, RoCEv2는 Broadcom, NVIDIA, Arista, Cisco, Marvell 등 다수 벤더가 경쟁하는 이더넷 생태계 위에서 동작하고 AMD, Intel, Meta, Microsoft, Broadcom, Cisco, Arista 등이 참여하는 Ultra Ethernet Consortium(UEC)이 AI 최적화 이더넷 표준화를 주도하고 있어 장기 기술 방향성 측면에서도 다변화되어 있습니다. 이런 흐름은 최근 대규모 AI 클러스터 구축 사례에서 그대로 드러나, Meta(Llama 학습, RoCE), Microsoft Azure, Alibaba(HPN), ByteDance(MegaScale), AWS(EFA) 등 주요 하이퍼스케일러들이 신규 AI 인프라를 이더넷 기반으로 구축하는 방향을 선택하고 있으며, InfiniBand는 HPC 전통이 강한 환경이나 기존 InfiniBand 기반 패브릭을 확장하는 경우에 유지되는 양상입니다.

특히 주목할 만한 점은 NVIDIA 스스로도 차세대 Vera Rubin 플랫폼부터는 자사의 이더넷 스위치 제품군인 Spectrum-X 기반 패브릭을 AI 인프라 표준 구성으로 제시하고 있다는 것입니다. 그동안 InfiniBand를 사실상 주도해온 NVIDIA조차 차세대 AI 플랫폼의 주축을 이더넷으로 전환하고 있다는 점은, 단순한 제품 라인업 다변화를 넘어 AI 네트워크의 무게 중심이 이더넷으로 넘어가고 있음을 상징적으로 보여줍니다. 향후 Rubin 세대 하드웨어와 NVIDIA의 Spectrum-X 기반 이더넷 패브릭이 보급된 이후 이번에 관찰된 격차가 어떻게 달라질지는 흥미로운 후속 비교 주제가 될 것입니다.

지금까지의 결과를 정리하면 다음과 같습니다.

  • LLM 사전학습, 파인튜닝, FSDP/ZeRO 기반 분산 학습 등 AllReduce, AllGather가 지배적인 워크로드라면 RoCEv2가 성능, 운영, 비용, 확장성 모두에서 유리한 선택입니다.
  • AlltoAll 비중이 큰 MoE 학습이나 지연에 민감한 HPC 성격의 작업에서는 InfiniBand가 소폭 우위를 보였지만, 그 격차가 작아 실사용에서 유의미하게 작용하지는 않습니다.

엘리스클라우드는 자체 클라우드 플랫폼인 ECI(Elice Cloud Infrastructure)를 기반으로 InfiniBand 클러스터와 RoCEv2 클러스터를 모두 운영하며, 워크로드 특성에 맞는 인프라를 선택할 수 있도록 지원합니다. 대규모 AI 학습 프로젝트를 계획 중이라면, ECI 환경에서 실제 워크로드를 직접 검증해보세요.

#엘리스클라우드
#인피니밴드
#이더넷
InfiniBand 혹은 RoCEv2 기술 문의하기

올인원 AI 교육 솔루션, 엘리스와 함께 시작하세요

AI 인프라부터 플랫폼까지, 내게 필요한 맞춤 솔루션을 알아보고 싶다면