top of page

NVIDIA GPU 제품별 연산 성능 비교

NVIDIA GPU 제품별 연산 성능 및 처리 속도를 비교합니다.

GPU 연산 성능이 높고 빠르다면?

AI 모델, 특히 딥러닝의 핵심은 거대한 행렬 곱셈(Matrix Multiplication) 인데, 수천 개의 코어가 동시에 연산을 수행합니다.

NVIDIA GPU의 높은 연산 성능은 이 병렬 구조를 통해 수조 개의 파라미터를 가진 거대 언어 모델(LLM)을 빠른 시간 내에 학습시키거나 추론할 수 있게 합니다.

더불어, NVIDIA GPU는 다양한 FP4, FP8, FP16 등 부동소수점(Floating Point) 정밀도를 지원하는데, 정밀도가 낮을수록 연산 속도는 비약적으로 빨라지고, 이는 추론 성능을 극대화하여 대규모 서비스 운영 비용을 획기적으로 낮출 수 있습니다.

또한, 연산 성능이 높은 GPU를 사용하면 수 개월 걸릴 학습을 단 며칠 내로 단축할 수 있고, 연구 개발 및 프로젝트 기간을 앞당겨 시장 경쟁력을 확보하게 해줍니다.

퀀텀브릭스는 합리적인 가격으로 GPU 서버를 공급합니다.

추론 성능 및 처리 속도 비교​​

LLM 추론 가능 모델 크기

탑재수량별 GPU 서버 가격

B200 GPU 8장이 탑재된 NVIDIA DGX B200 GPU 서버 전면 이미지

#01. 연산 성능 및 처리 속도 비교(FP16)

본 도표는 FP16, NVIDIA GPU 제품의 1장 당 기준으로 연산 성능 및 처리 속도를 비교합니다.

구분

메모리 대역폭

FP16 연산 성능

B300

8.0TB/s

4.5 PFLOPS

B200

8.0TB/s

4.5 PFLOPS

H200

4.8TB/s

1.6 PFLOPS

H100

3.9TB/s

1.6 PFLOPS

A100

1.9TB/s

312 TFLOPS

L40S

0.9TB/s

0.7 PFLOPS

RTX 6K

1.7TB/s

1 PFLOPS

<참고사항>

​​​

  • FP, TF 등 연산 성능은 희소성(Sparsity)을 적용한 기준이며, 밀집(Dense) 기준에서는 약 50% 수준의 성능을 보입니다.

  • B300, B200은 HGX / SXM 타입, H200, H100, A100, L40S, RTX 6000은 NVL / PCIe 타입의 GPU 1장 당 기준입니다.

  • 1 PFLOPS: 전 세계 인구 80억 명이 계산기를 들고 1초에 한 번씩, 쉬지 않고 약 35시간 동안 계산해야 하는 일을 1초만에 끝냅니다.

  • 1 TB/s: 5GB 고화질(HD) 영화 200편을 1초만에 통째로 옮길 수 있습니다.

#02. 연산 성능 및 처리 속도 비교(FP8)

본 도표는 FP8, NVIDIA GPU 제품의 1장 당 기준으로 연산 성능 및 처리 속도를 비교합니다.

구분

메모리 대역폭

FP8 연산 성능

B300

8.0TB/s

9 PFLOPS

B200

8.0TB/s

9 PFLOPS

H200

4.8TB/s

3.3 PFLOPS

H100

3.9TB/s

3.3 PFLOPS

A100

1.9TB/s

​지원 안함

L40S

0.9TB/s

1.4 PFLOPS

RTX 6K

1.7TB/s

2 PFLOPS

<참고사항>

​​​

  • FP, TF 등 연산 성능은 희소성(Sparsity)을 적용한 기준이며, 밀집(Dense) 기준에서는 약 50% 수준의 성능을 보입니다.

  • B300, B200은 HGX / SXM 타입, H200, H100, A100, L40S, RTX 6000은 NVL / PCIe 타입의 GPU 1장 당 기준입니다.

  • 1 PFLOPS: 전 세계 인구 80억 명이 계산기를 들고 1초에 한 번씩, 쉬지 않고 약 35시간 동안 계산해야 하는 일을 1초만에 끝냅니다.

  • 1 TB/s: 5GB 고화질(HD) 영화 200편을 1초만에 통째로 옮길 수 있습니다.

#03. 연산 성능 및 처리 속도 비교(FP4)

본 도표는 FP4, NVIDIA GPU 제품의 1장 당 기준으로 연산 성능 및 처리 속도를 비교합니다.

구분

메모리 대역폭

FP4 연산 성능

B300

8.0TB/s

18 PFLOPS

B200

8.0TB/s

18 PFLOPS

H200

4.8TB/s

지원 안함

H100

3.9TB/s

지원 안함

A100

1.9TB/s

지원 안함

L40S

0.9TB/s

지원 안함

RTX 6K

1.7TB/s

4 PFLOPS

<참고사항>

​​​

  • FP, TF 등 연산 성능은 희소성(Sparsity)을 적용한 기준이며, 밀집(Dense) 기준에서는 약 50% 수준의 성능을 보입니다.

  • B300, B200은 HGX / SXM 타입, H200, H100, A100, L40S, RTX 6000은 NVL / PCIe 타입의 GPU 1장 당 기준입니다.

  • 1 PFLOPS: 전 세계 인구 80억 명이 계산기를 들고 1초에 한 번씩, 쉬지 않고 약 35시간 동안 계산해야 하는 일을 1초만에 끝냅니다.

  • 1 TB/s: 5GB 고화질(HD) 영화 200편을 1초만에 통째로 옮길 수 있습니다.

bottom of page