추론 시, 가능 모델 크기의 기준은?
LLM 추론 시, GPU 1장에 단순히 적재할 수 있는 LLM 모델의 크기는 GPU 메모리 용량 크기를 기준으로 결정됩니다.
추론 및 서비스 하고자 하는 크기의 모델을 적재할 수 없거나 부족할 경우, 서비스 자체를 제공할 수 없습니다.
따라서, 모델의 크기를 축소하거나 구조의 최적화를 통해 필요 메모리의 요구량을 낮춰야 합니다.
또는, GPU 추가 탑재로 원하는 크기의 모델을 적재할 수 있습니다.
퀀텀브릭스는 합리적인 가격으로 GPU 서버를 공급합니다.

#01. 추론 시, GPU 1장에 적재할 수 있는 모델 크기(FP16)
본 도표는 FP16, GPU 1장 기준으로 추론 및 서비스 시, 적재할 수 있는 LLM 모델의 크기를 비교합니다.
구분
메모리 용량
적재 가능 LLM 크기
B300
288GB
대략 135B+
B200
180GB
대략 85B+
H200
141GB
대략 65B+
H100
94GB
대략 37B
A100
80GB
대략 37B
L40S
48GB
대략 22B
RTX 6K
96GB
대략 45B
<참고사항>
-
계산법(1): GPU 1개 당 메모리 용량 x 0.5 = 해당 GPU 1장에 적재 가능한 있는 모델 크기
-
예) H200 메모리 용량 141GB x 0.5 = 70.5B
-
계산법(2): 적재할 LLM 크기 x 2 byte (FP16은 파라미터 당 1 byte) = 필요한 메모리 용량
-
예) 70B x 2 = 140GB
-
계산법은 이론 상이며, 실제로 적재할 수 있는 LLM 크기는 최소 10%, 최대 30% 더 작습니다.
-
더 큰 모델의 적재가 필요할 경우, 모델 축소 / 구조 최적화를 통해, 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.
-
전체 GPU 서버 가격 페이지 또는 견적 요청 시 48시간 내 제공 페이지를 참고 바랍니다.
#02. 추론 시, GPU 1장에 적재할 수 있는 모델 크기(FP8)
본 도표는 FP8, GPU 1장 기준으로 추론 및 서비스 시, 적재할 수 있는 LLM 모델의 크기를 비교합니다.
구분
메모리 용량
적재 가능 LLM 크기
B300
288GB
대략 270B+
B200
180GB
대략 170B+
H200
141GB
대략 135B+
H100
94GB
대략 75B
A100
80GB
FP8 지원 안함
L40S
48GB
대략 45B
RTX 6K
96GB
대략 85B
<참고사항>
-
계산법(1): GPU 1개 당 메모리 용량 x 1 = 해당 GPU 1장에 적재 가능한 있는 모델 크기
-
예) H200 메모리 용량 141GB x 1 = 141B
-
계산법(2): 적재할 LLM 크기 x 1 byte (FP8은 파라미터 당 1 byte) = 필요한 메모리 용량
-
예) 70B x 1 = 70GB
-
계산법은 이론 상이며, 실제로 적재할 수 있는 LLM 크기는 최소 10%, 최대 30% 더 작습니다.
-
A100은 FP8 하드웨어 가속을 지원하지 않으므로, 양자화 전략 또는, H200, B200 등 업그레이드가 필요합니다.
-
더 큰 모델의 적재가 필요할 경우, 모델 축소 / 구조 최적화를 통해, 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.
-
전체 GPU 서버 가격 페이지 또는 견적 요청 시 48시간 내 제공 페이지를 참고 바랍니다.
#03. 추론 시, GPU 1장에 적재할 수 있는 모델 크기(FP4)
본 도표는 FP4, GPU 1장 기준으로 추론 및 서비스 시, 적재할 수 있는 LLM 모델의 크기를 비교합니다.
구분
메모리 용량
적재 가능 LLM 크기
B300
288GB
대략 540B+
B200
180GB
대략 335B+
H200
141GB
FP4 지원 안함
H100
94GB
FP4 지원 안함
A100
80GB
FP4 지원 안함
L40S
48GB
FP4 지원 안함
RTX 6K
96GB
대략 180B+
<참고사항>
-
계산법: GPU 1개 당 메모리 용량 x 2 = 해당 GPU 1장에 적재 가능한 있는 모델 크기
-
예) H200 메모리 용량 141GB x 2 = 282B
-
계산법(2): 적재할 LLM 크기 x 0.5 byte (FP4는 파라미터 당 0.5 byte) = 필요한 메모리 용량
-
예) 70B x 0.5 = 35GB
-
계산법은 이론 상이며, 실제로 적재할 수 있는 LLM 크기는 최소 10%, 최대 30% 더 작습니다.
-
L40S, A100, H100, H200은 FP4 하드웨어 가속을 지원하지 않으므로, 양자화 전략 또는 B200 등 업그레이드가 필요합니다.
-
더 큰 모델의 적재가 필요할 경우, 모델 축소 / 구조 최적화를 통해, 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.
-
전체 GPU 서버 가격 페이지 또는 견적 요청 시 48시간 내 제공 페이지를 참고 바랍니다.