LLM 추론 시, 단순 적재할 수 있는 모델 크기

LLM 추론 시, GPU 1장에 단순 적재할 수 있는 모델 크기를 비교합니다.

견적요청하기

추론 시, 가능 모델 크기의 기준은?

LLM 추론 시, GPU 1장에 단순히 적재할 수 있는 LLM 모델의 크기는 GPU 메모리 용량 크기를 기준으로 결정됩니다.

추론 및 서비스 하고자 하는 크기의 모델을 적재할 수 없거나 부족할 경우, 서비스 자체를 제공할 수 없습니다.

따라서, 모델의 크기를 축소하거나 구조의 최적화를 통해 필요 메모리의 요구량을 낮춰야 합니다.

또는, GPU 추가 탑재로 원하는 크기의 모델을 적재할 수 있습니다.

퀀텀브릭스는 합리적인 가격으로 GPU 서버를 공급합니다.

GPU 메모리 용량 비교표

LLM 파인튜닝 가능 모델 크기 비교

탑재수량별 GPU 서버 가격

L40S GPU가 탑재된 NVIDIA L40S GPU 서버의 전면과 내부 이미지

#01. 추론 시, GPU 1장에 적재할 수 있는 모델 크기(FP16)

본 도표는 FP16, GPU 1장 기준으로 추론 및 서비스 시, 적재할 수 있는 LLM 모델의 크기를 비교합니다.

구분

메모리 용량

적재 가능 LLM 크기

B300

288GB

대략 135B+

B200

180GB

대략 85B+

H200

141GB

대략 65B+

H100

94GB

대략 37B

A100

80GB

대략 37B

L40S

48GB

대략 22B

RTX 6K

96GB

대략 45B

<참고사항>

계산법(1): GPU 1개 당 메모리 용량 x 0.5 = 해당 GPU 1장에 적재 가능한 있는 모델 크기

예) H200 메모리 용량 141GB x 0.5 = 70.5B

계산법(2): 적재할 LLM 크기 x 2 byte (FP16은 파라미터 당 1 byte) = 필요한 메모리 용량

예) 70B x 2 = 140GB

계산법은 이론 상이며, 실제로 적재할 수 있는 LLM 크기는 최소 10%, 최대 30% 더 작습니다.

더 큰 모델의 적재가 필요할 경우, 모델 축소 / 구조 최적화를 통해, 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.

전체 GPU 서버 가격 페이지 또는 견적 요청 시 48시간 내 제공 페이지를 참고 바랍니다.

#02. 추론 시, GPU 1장에 적재할 수 있는 모델 크기(FP8)

본 도표는 FP8, GPU 1장 기준으로 추론 및 서비스 시, 적재할 수 있는 LLM 모델의 크기를 비교합니다.

구분

메모리 용량

적재 가능 LLM 크기

B300

288GB

대략 270B+

B200

180GB

대략 170B+

H200

141GB

대략 135B+

H100

94GB

대략 75B

A100

80GB

FP8 지원 안함

L40S

48GB

대략 45B

RTX 6K

96GB

대략 85B

<참고사항>

계산법(1): GPU 1개 당 메모리 용량 x 1 = 해당 GPU 1장에 적재 가능한 있는 모델 크기

예) H200 메모리 용량 141GB x 1 = 141B

계산법(2): 적재할 LLM 크기 x 1 byte (FP8은 파라미터 당 1 byte) = 필요한 메모리 용량

예) 70B x 1 = 70GB

계산법은 이론 상이며, 실제로 적재할 수 있는 LLM 크기는 최소 10%, 최대 30% 더 작습니다.

A100은 FP8 하드웨어 가속을 지원하지 않으므로, 양자화 전략 또는, H200, B200 등 업그레이드가 필요합니다.

더 큰 모델의 적재가 필요할 경우, 모델 축소 / 구조 최적화를 통해, 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.

전체 GPU 서버 가격 페이지 또는 견적 요청 시 48시간 내 제공 페이지를 참고 바랍니다.

#03. 추론 시, GPU 1장에 적재할 수 있는 모델 크기(FP4)

본 도표는 FP4, GPU 1장 기준으로 추론 및 서비스 시, 적재할 수 있는 LLM 모델의 크기를 비교합니다.

구분

메모리 용량

적재 가능 LLM 크기

B300

288GB

대략 540B+

B200

180GB

대략 335B+

H200

141GB

FP4 지원 안함

H100

94GB

FP4 지원 안함

A100

80GB

FP4 지원 안함

L40S

48GB

FP4 지원 안함

RTX 6K

96GB

대략 180B+

<참고사항>

계산법: GPU 1개 당 메모리 용량 x 2 = 해당 GPU 1장에 적재 가능한 있는 모델 크기

예) H200 메모리 용량 141GB x 2 = 282B

계산법(2): 적재할 LLM 크기 x 0.5 byte (FP4는 파라미터 당 0.5 byte) = 필요한 메모리 용량

예) 70B x 0.5 = 35GB

계산법은 이론 상이며, 실제로 적재할 수 있는 LLM 크기는 최소 10%, 최대 30% 더 작습니다.

L40S, A100, H100, H200은 FP4 하드웨어 가속을 지원하지 않으므로, 양자화 전략 또는 B200 등 업그레이드가 필요합니다.

더 큰 모델의 적재가 필요할 경우, 모델 축소 / 구조 최적화를 통해, 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.

전체 GPU 서버 가격 페이지 또는 견적 요청 시 48시간 내 제공 페이지를 참고 바랍니다.