top of page

NVIDIA GPU 제품별 추론 성능 비교

NVIDIA GPU 제품별 추론 성능 및 처리 속도를 비교합니다.

추론 성능과 속도, 왜 중요한가?

추론 속도, TPS(초당 토큰 생성 수)는 얼마나 빨리 답을 내느냐를 직접적으로 보여주는 수치입니다.

사용자 체감 성능: TPS는 AI 서비스의 품질(QoS)을 결정하는 중요한 척도로, TPS가 낮으면 응답이 끊기거나 느리게 출력돼 서비스 품질이 저하되고 곧 사용자는 떠납니다.​

처리량과 직결: GPU로 동시에 처리할 수 있는 요청 수는 결국 TPS에 의해 제한됩니다. TPS가 높을수록 더 많은 사용자를 커버할 수 있고, 인프라 대비 서비스 규모를 키우기 쉬워집니다.

비용 효율 결정: 동일한 작업을 더 빠르게 끝낼수록 GPU 점유 시간이 줄어들어 단위 작업당 비용이 낮아집니다. 반대로 TPS가 낮으면 같은 결과를 얻는 데 더 많은 시간과 자원이 필요합니다.

퀀텀브릭스는 합리적인 가격으로 GPU 서버를 공급합니다.

LLM 추론 가능 모델 크기 비교

연산 성능 및 처리 속도 비교

탑재수량별 GPU 서버 가격

Rubin GPU 2장 및 Vera CPU 1장이 탑재된 Rubin 슈퍼칩 이미지

#01. 추론 성능 TPS 구간별 사용자 체감 속도

본 도표는 TPS (Tokens Per Second) 수치별로 체감되는 서비스의 속도감을 비교합니다.

TPS

​체감 속도

실제 사용자 느낌

10

읽기 좋은 속도

눈으로 따라가며 읽기에 편안, AI 서비스의 최소 권장 기준

30

빠른 속도

시원하게 출력, 기다리는 느낌 없음, 유료 AI 서비스의 목표

50

매우 빠른 속도

문단 전체 1~2초에 쏟아져 나옴, 잠깐 눈을 깜빡이면 답변 완성

100

즉시 응답 수준

엔터를 치자마자 글 한 페이지가 화면에 한꺼번에 뿌려짐

200

실시간 한계 초월

인간이 인지하는 한계를 넘는 속도로 측정의 의미가 없음

<참고사항>

  • 일반적으로 성인의 평균 묵독(눈으로 읽기) 속도가 초당 약 5~10 토큰 정도입니다.

  • 실제 AI 서비스의 마지노선: 5~8 TPS 이하로 떨어지면 사용자는 답변이 끊긴다고 느끼며 "답답함"을 호소하기 시작합니다.

  • 비즈니스 효율 구간: 30~50 TPS 정도만 확보되어도 사용자 만족도는 최상위에 도달합니다.

#02. 8B 모델 기준, 추론 성능 및 서비스 처리 속도(FP16)

본 도표는 LLM 8B, FP16 및 GPU 1장 기준으로 모델이 사용자(1명)의 질문에 얼마나 빠르게 답변하는지 비교합니다.

구분

메모리 대역폭

추론 속도(TPS)

B300

8.0TB/s

500

B200

8.0TB/s

500

H200

4.8TB/s

300

H100

3.9TB/s

243

A100

1.9TB/s

118

L40S

0.9TB/s

56

RTX 6K

1.7TB/s

106

<참고사항>

​​​​

  • 계산법: 메모리 대역폭(GB로 환산) ÷ [파라미터 수(B) x 2 byte (FP16은 파라미터 당 2 byte)] = TPS

  • 예) H200 대역폭 4,800GB ÷ 16GB (8B x 2) = 300TPS

  • TPS(Tokens Per Second)는 "AI가 1초 당 얼마나 많은 토큰(단어 조각)을 생성해내는가" 를 의미합니다.​

  • TPS 수치는 대역폭을 100% 활용한다는 가정하에, 이론적으로 도달 가능한 최대 토큰 생성 속도입니다.

  • 실제 서비스 환경에서는 KV 캐시 메모리 점유, 커널 오버헤드, 배치 사이즈 설정 등에 따라 더 높거나 또는 낮아질 수 있습니다.

#03. 30B 모델 기준, 추론 성능 및 서비스 처리 속도(FP16)

본 도표는 LLM 30B, FP16 및 GPU 1장 기준으로 모델이 사용자(1명)의 질문에 얼마나 빠르게 답변하는지 비교합니다.

구분

메모리 대역폭

추론 속도(TPS)

B300

8.0TB/s

133

B200

8.0TB/s

133

H200

4.8TB/s

80

H100

3.9TB/s

65

A100

1.9TB/s

31

L40S

0.9TB/s

​실행 불가

RTX 6K

1.7TB/s

실행 불가

<참고사항>

​​​​

  • 계산법: 메모리 대역폭(GB로 환산) ÷ [파라미터 수(B) x 2 byte (FP16은 파라미터 당 2 byte)] = TPS

  • 예) H200 대역폭 4,800GB ÷ 16GB (8B x 2) = 300TPS

  • TPS(Tokens Per Second)는 "AI가 1초 당 얼마나 많은 토큰(단어 조각)을 생성해내는가" 를 의미합니다.​

  • TPS 수치는 대역폭을 100% 활용한다는 가정하에, 이론적으로 도달 가능한 최대 토큰 생성 속도입니다.

  • 실제 서비스 환경에서는 KV 캐시 메모리 점유, 커널 오버헤드, 배치 사이즈 설정 등에 따라 더 높거나 또는 낮아질 수 있습니다.

  • 실행이 불가능한 이유: GPU 1개 당 메모리 용량 기준으로, 모델 자체를 올릴 수 없기 때문입니다.

  • 실행 불가의 경우, 모델 축소 / 구조 최적화를 통해, 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.

#04. 70B 모델 기준, 추론 성능 및 서비스 처리 속도(FP16)

본 도표는 LLM 70B, FP16 및 GPU 1장 기준으로 모델이 사용자(1명)의 질문에 얼마나 빠르게 답변하는지 비교합니다.

구분

메모리 대역폭

추론 속도(TPS)

B300

8.0TB/s

57

B200

8.0TB/s

57

H200

4.8TB/s

34

H100

3.9TB/s

실행 불가

A100

1.9TB/s

실행 불가

L40S

0.9TB/s

실행 불가

RTX 6K

1.7TB/s

실행 불가

<참고사항>

​​​​

  • 계산법: 메모리 대역폭(GB로 환산) ÷ [파라미터 수(B) x 2 byte (FP16은 파라미터 당 2 byte)] = TPS

  • 예) H200 대역폭 4,800GB ÷ 16GB (8B x 2) = 300TPS

  • TPS(Tokens Per Second)는 "AI가 1초 당 얼마나 많은 토큰(단어 조각)을 생성해내는가" 를 의미합니다.​

  • TPS 수치는 대역폭을 100% 활용한다는 가정하에, 이론적으로 도달 가능한 최대 토큰 생성 속도입니다.

  • 실제 서비스 환경에서는 KV 캐시 메모리 점유, 커널 오버헤드, 배치 사이즈 설정 등에 따라 더 높거나 또는 낮아질 수 있습니다.

  • 실행이 불가능한 이유: GPU 1개 당 메모리 용량 기준으로, 모델 자체를 메모리에 올릴 수 없기 때문입니다.

  • 수치가 없고 실행 불가의 경우, 모델 축소/구조 최적화를 통해, 메모리 요구량을 낮추거나, GPU 추가 탑재가 권장됩니다.

bottom of page