top of page

NVIDIA GPU 메모리 용량 및 대역폭

NVIDIA GPU 제품별 메모리 용량 및 대역폭을 비교합니다.

메모리 용량이 충분하고 대역폭이 빠르다면?

NVIDIA GPU 메모리 용량의 1차적인 역할은 올릴 수 있는 LLM 모델의 크기를 결정하는데, 용량이 충분하면 원하는 크기의 LLM 모델을 로딩할 수 있으며, 학습을 시작할 수 있습니다.


더불어, GPU 메모리 대역폭은 데이터를 처리하는 속도에 영향을 미칩니다.


메모리 대역폭이 높으면, 학습 시간이 단축시킬 수 있어 AI R&D 및 프로젝트 비용을 절감할 수 있으며, 추론 속도 또한 빨라지므로 양질의 AI 서비스를 제공할 수 있습니다.

추론 성능 및 처리 속도 비교

연산 성능 및 처리 속도 비교

탑재수량별 GPU 서버 가격

H200 GPU 8장이 탑재된 HGX H200 메인 보드 전면 이미지

#01. GPU 1장 당 메모리(VRAM) 용량

본 도표는 NVIDIA GPU 제품의 메모리 용량을 비교합니다.

구분

타입 / 탑재 제품

​메모리 용량

B300

GB300 NVL72

279 GB

B300

HGX B300

270 GB

B300

DGX B300

270 GB (총 2.1TB)

B200

GB200 NVL72

186 GB

B200

HGX B200

180 GB

B200

DGX B200

180 GB

H200

DGX H200

141 GB

H200

SXM / NVL

141 GB

H100

DGX H100

80 GB (총 640GB)

H100

NVL

94 GB

H100

SXM

80 GB

A100

SXM / NVL

80 GB

L40S

NVL

48 GB

RTX 6K

NVL

96 GB

<참고사항>

  • B300의 1장 당 메모리 용량은 명시적으로 288GB로 쓰이고 있습니다.

  • GB300 NVL72 데이터시트 기준으로 279GB, HGX B300은 270GB, DGX B300은 총 메모리 용량만 2.1TB로 표기, DGX B300 User Guide 문서에는 1장 당 288GB로 표기되어 있습니다.

  • B200은 데이터 시트 기준으로, GB200 NVL72은 186GB, HGX B200은 180GB, DGX B200은 총 용량만 1,440GB로 표기, 8장으로 나누면 180GB 입니다.

  • H200은 SXM 및 NVL 2가지 타입 모두 141GB, DGX H200도 141GB로 모두 동일합니다.

  • H100 SXM 타입은 80GB, NVL은 94GB, DGX H100은 총 용량만 640GB로 표기, 8장으로 나누면 80GB 입니다.

  • A100은 SXM 타입과 NVL 타입의 메모리 용량이 80GB로 동일 합니다.

  • L40S는 NVL 타입으로만 공급되며, 48GB 입니다.

  • RTX Pro 6000 Blackwell은 공급 타입 및 3가지 에디션에 관계 없이 모두 96GB 입니다.

왜 GPU 메모리 용량이 중요한가?

올릴 수 있는 모델 크기 결정: LLM은 파라미터를 전부 GPU 메모리에 올려야 하는데, 메모리가 작으면 큰 모델은 로딩 자체가 불가능 합니다.​

학습 가능 여부: 학습 시에는 파라미터 + gradient + optimizer state 까지 필요한데, 메모리가 작으면 학습 자체가 불가능 합니다.

​​

배치 사이즈 제한: 메모리가 크면 batch size를 키울 수 있어서, GPU 활용도가 올라가고 처리 속도 / 효율이 상승합니다.

시퀀스 길이(컨텍스트 길이): 특히 LLM 추론에서 중요한데, 메모리가 많을수록 긴 입력 /문서 처리가 가능합니다.

속도 및 비용: 메모리가 부족하면, CPU 오프로딩, 디스크 스왑 등이 발생하여 속도가 급감하고 비용이 증가합니다.

LLM 파인튜닝 가능 모델 크기

LLM 추론 가능 모델 크기

탑재수량별 GPU 서버 가격

141GB 메모리 용량을 제공하는 Hopper 아키텍처 기반의 NVIDIA H200 GPU 이미지

#02. GPU 1장 당 메모리 대역폭(TB/s) 및 전송 속도

본 도표는 NVIDIA GPU 제품의 메모리 대역폭 및 속도를 비교합니다.

구분

메모리 타입

대역폭 / 전송속도

B300

HBM3e

8.0 TB/s

B200

HBM3e

8.0 TB/s

H200

HBM3e

4.8 TB/s

H100

HBM3e

3.9 TB/s

A100

HBM2e

1.9 TB/s

L40S

GDDR6

0.9 TB/s

RTX 6K

GDDR7

1.7 TB/s

<참고사항>

​​​

  • B300, B200은 HGX / SXM 타입, H200, H100, A100, L40S, RTX 6000은 NVL / PCIe 타입의 GPU 1장 당 기준입니다.

  • 1 TB/s: 5GB 고화질(HD) 영화 200편을 1초만에 통째로 옮길 수 있습니다.

왜 GPU 메모리 대역폭이 중요한가?

성능 저하: GPU는 계산보다 데이터 기다리는 시간이 더 많은데, 대역폭 낮으면 코어가 놀게 되어 성능이 크게 떨어집니다.

추론 속도 저하: LLM은 매 토큰마다 weight를 계속 읽는데, 이 과정이 대부분 메모리 읽기이고 대역폭은 = 토큰 생성 속도(tokens/sec), 즉 추론 속도를 좌우합니다.

학습 속도 지연: 학습 시 forward + backward + gradient 업데이트가 포함되어 메모리 접근량이 폭증하므로, 대역폭이 낮으면 학습 시간이 눈에 띄게 길어집니다.

병목 원인 1순위: 모델이 클수록 연산보다 메모리 이동 비중 증가하는데, 대역폭이 성능 병목을 일으키는 1순위가 됩니다.

멀티 GPU 효율 급감: 데이터를 빠르게 읽고 처리해야, GPU 간 통신도 효율적으로 이어지는데, 대역폭이 낮으면 효율이 급락하게 되어 속도가 떨어집니다.

LLM 학습 가능 모델 크기 비교

LLM 추론 가능 모델 크기 비교

탑재수량별 GPU 서버 가격

Blackwell 아키텍처 기반의 NVIDIA RTX Pro 6000 Blackwell GPU가 탑재된 서버 내부 및 외부 이미지

#03. GPU 간 데이터 전송 속도 및 인터페이스 비교

NVIDIA GPU 제품 간의 대역폭 및 속도를 비교합니다.

구분

대역폭 / 전송속도

인터페이스

B300

1.8 TB/s

NVLink 5세대

B200

1.8 TB/s

NVLink 5세대

H200

900 GB/s

NVLink 4세대

H100

900 GB/s

NVLink 4세대

A100

600 GB/s

NVLink 3세대

L40S

64 GB/s

PCIe 4

RTX 6K

128 GB/s

PCIe 5

<참고사항>

​​​

  • ​B300은 GB300 NVL72는 총 130 TB/s, HGX 300은 개 당 1.8 TB/s, DGX B300은 개 당 1.8 TB/s.

  • B200은 GB200 NVL72는 총 130 TB/s, HGX 200은 개 당 1.8 TB/s, DGX B200은 개 당 1.8 TB/s.

  • H200 SXM 및 NVL 2가지 타입 모두 900GB/s, DGX H200은 미 표기이며, 900GB/s 으로 추정.

  • H100 SXM 및 NVL 2가지 타입 모두 900GB/s, DGX H100은 미 표기이며, 900GB/s 으로 추정.

  • A100 SXM 및 NVL 2가지 타입 모두 600GB/s.

  • L40S NVLink 미 지원, PCIe Gen4 기준으로 64GB/s.

  • RTX 6K는 NVLink 미 지원, PCIe Gen5 기준으로 128GB/s.

  • PCIe P2P(Peer-to-Peer) 전송: PCIe 버스 상에서 GPU 간 직접 데이터 전송을 지원합니다.

bottom of page