LLM 학습이 가능한 모델 크기는?
LLM 학습 시, GPU 1장에 단순히 적재할 수 있는 모델의 크기는 GPU 메모리 용량 크기를 기준으로 결정됩니다.
학습하고자 하는 크기의 모델을 적재할 수 없거나 부족할 경우, 학습 자체를 시작할 수 없습니다.
따라서, 모델의 크기를 축소하거나 구조의 최적화를 통해 필요 메모리의 요구량을 낮춰야 합니다.
또는, GPU 추가 탑재로 원하는 크기의 모델을 적재할 수 있습니다.
퀀텀브릭스는 합리적인 가격으로 GPU 서버를 공급합니다.

#01. 학습 시, GPU 1장에 적재할 수 있는 모델 크기(FP16)
본 도표는 FP16, GPU 1장을 기준으로 단순 적재할 수 있는 모델의 크기를 비교합니다.
모델 크기
B300 (288GB)
B200 (180GB)
10B
여유
여유
20B
가능(여유)
부족(불가)
30B
가능(마지노선)
불가
70B
부족(불가)
불가
100B
불가
불가
200B
불가
불가
<참고사항>
-
계산법: 파라미터(B) × 10(weight 2+grad 2+optimizer 6) = 필요 메모리 용량(GB)
-
실제로 적재 가능한 모델의 크기는 약 20~30% 감소합니다.
-
FP8 / FP4 적용 시에도 gradient 및 optimizer 비중이 커서, 필요한 메모리는 약 20~30% 수준만 감소합니다.
-
부족 또는 불가 시, 모델 축소 / 구조 최적화를 통해 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.
-
B300 GPU 서버 가격 또는, B200 GPU 서버 가격 페이지를 참고 바랍니다.
#02. 학습 시, GPU 1장에 적재할 수 있는 모델 크기(FP16)
본 도표는 FP16, GPU 1장을 기준으로 단순 적재할 수 있는 모델의 크기를 비교합니다.
모델 크기
H200 (141GB)
H100 (90GB)
10B
가능(여유)
가능(마지노선)
20B
가능
불가
30B
불가
불가
70B
불가
불가
100B
불가
불가
200B
불가
불가
<참고사항>
-
계산법: 파라미터(B) × 10(weight 2+grad 2+optimizer 6) = 필요 메모리 용량(GB)
-
실제로 적재 가능한 모델의 크기는 약 20~30% 감소합니다.
-
FP8 / FP4 적용 시에도 gradient 및 optimizer 비중이 커서, 필요한 메모리는 약 20~30% 수준만 감소합니다.
-
부족 또는 불가 시, 모델 축소 / 구조 최적화를 통해 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.
-
H200 GPU 서버 가격 페이지를 참고 바랍니다.
#03. 학습 시, GPU 1장에 적재할 수 있는 모델 크기(FP16)
본 도표는 FP16, GPU 1장을 기준으로 단순 적재할 수 있는 모델의 크기를 비교합니다.
모델 크기
RTX 6K (96GB)
L40S (48GB)
10B
부족(불가)
불가
20B
불가
불가
30B
불가
불가
70B
불가
불가
100B
불가
불가
200B
불가
불가
<참고사항>
-
계산법: 파라미터(B) × 10(weight 2+grad 2+optimizer 6) = 필요 메모리 용량(GB)
-
실제로 적재 가능한 모델의 크기는 약 20~30% 감소합니다.
-
FP8 / FP4 적용 시에도 gradient 및 optimizer 비중이 커서, 필요한 메모리는 약 20~30% 수준만 감소합니다.
-
부족 또는 불가 시, 모델 축소 / 구조 최적화를 통해 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.
-
L40S 탑재 GPU 서버 가격 또는, RTX 6000 탑재 GPU 서버 가격 페이지를 참고 바랍니다.