top of page

LLM 학습 시, 단순 적재할 수 있는 모델 크기

LLM 학습 시, 단순 적재할 수 있는 모델 크기를 비교합니다.

LLM 학습이 가능한 모델 크기는?

LLM 학습 시, GPU 1장에 단순히 적재할 수 있는 모델의 크기는 GPU 메모리 용량 크기를 기준으로 결정됩니다.

학습하고자 하는 크기의 모델을 적재할 수 없거나 부족할 경우, 학습 자체를 시작할 수 없습니다.

 

따라서, 모델의 크기를 축소하거나 구조의 최적화를 통해 필요 메모리의 요구량을 낮춰야 합니다.

또는, GPU 추가 탑재로 원하는 크기의 모델을 적재할 수 있습니다.

퀀텀브릭스는 합리적인 가격으로 GPU 서버를 공급합니다.

메모리 용량 및 대역폭 비교표

LLM 추론 가능 모델 크기

탑재수량별 GPU 서버 가격

Rubin GPU 8장이 탑재된 NVIDIA HGX Rubin 메인 보드 전면 이미지

#01. 학습 시, GPU 1장에 적재할 수 있는 모델 크기(FP16)

본 도표는 FP16, GPU 1장을 기준으로 단순 적재할 수 있는 모델의 크기를 비교합니다.  

모델 크기

B300 (288GB)

B200 (180GB)

10B

​여유

​여유

20B

​가능(여유)

부족(​불가)

30B

​가능(마지노선)

​불가

70B

​부족(불가)

​불가

100B

불가

​불가

200B

불가

​불가

<참고사항>

​​​

  • 계산법: 파라미터(B) × 10(weight 2+grad 2+optimizer 6) = 필요 메모리 용량(GB)

  • 실제로 적재 가능한 모델의  크기는 약 20~30% 감소합니다.

  • ​FP8 / FP4 적용 시에도 gradient 및 optimizer 비중이 커서, 필요한 메모리는 약 20~30% 수준만 감소합니다.

  • 부족 또는 불가 시, 모델 축소 / 구조 최적화를 통해 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.

#02. 학습 시, GPU 1장에 적재할 수 있는 모델 크기(FP16)

본 도표는 FP16, GPU 1장을 기준으로 단순 적재할 수 있는 모델의 크기를 비교합니다.  

모델 크기

H200 (141GB)

H100 (90GB)

10B

가능(여유)

가능(마지노선)

20B

가능

​불가

30B

불가

​불가

70B

불가

​불가

100B

불가

​불가

200B

불가

​불가

<참고사항>

​​​

  • 계산법: 파라미터(B) × 10(weight 2+grad 2+optimizer 6) = 필요 메모리 용량(GB)

  • 실제로 적재 가능한 모델의  크기는 약 20~30% 감소합니다.

  • ​FP8 / FP4 적용 시에도 gradient 및 optimizer 비중이 커서, 필요한 메모리는 약 20~30% 수준만 감소합니다.

  • 부족 또는 불가 시, 모델 축소 / 구조 최적화를 통해 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.

#03. 학습 시, GPU 1장에 적재할 수 있는 모델 크기(FP16)

본 도표는 FP16, GPU 1장을 기준으로 단순 적재할 수 있는 모델의 크기를 비교합니다.  

모델 크기

RTX 6K (96GB)

L40S (48GB)

10B

​부족(불가)

​불가

20B

​불가

​불가

30B

​불가

​불가

70B

​불가

​불가

100B

​불가

​불가

200B

​불가

​불가

<참고사항>

  • 계산법: 파라미터(B) × 10(weight 2+grad 2+optimizer 6) = 필요 메모리 용량(GB)

  • 실제로 적재 가능한 모델의  크기는 약 20~30% 감소합니다.

  • ​FP8 / FP4 적용 시에도 gradient 및 optimizer 비중이 커서, 필요한 메모리는 약 20~30% 수준만 감소합니다.

  • 부족 또는 불가 시, 모델 축소 / 구조 최적화를 통해 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.

bottom of page