top of page

RAG 시스템 구축 및 운영 적합 GPU 비교

RAG 시스템 구축 및 운영에 적합한 GPU 서버 선택을 위해 비교표를 제공합니다.

#01. RAG 시스템 구축 시, 임베딩 처리 속도(FP16)

본 도표는 FP16, GPU 1장 및 100M 임베딩 모델 기준으로 데이터 임베딩 처리 속도를 비교합니다.

구분

TPS

처리 속도

B300

약 6,300K

최상

B200

약 6,300K

​최상

H200

약 2,240K

매우 높음

H100

약 2,240K

매우 높음

A100

약 436K

보통

L40S

약 980K

보통

RTX 6K

약 1,400K

높음

<참고 사항>

​​​​​

  • 계산법: GPU 초 당 연산 능력 ÷ 토큰당 필요한 연산량 = TPS x 실질 효율(28%)

  • 예) B300의 초당 연산 능력 약 9 PFLOPS(단위 변환: 9,000,000 GFLOPS) ÷ 토큰당 필요한 연산량= = TPS x 실질 효율(28%)

  • 토큰당 필요한 연산량 = [1억개(100M) 파라미터 임베딩 모델 x 2 = 2억 FLOPs/Token(단위 변환 0.2 GFLOPs/Token)]

#02. RAG 시스템 구축 시, 임베딩 처리 속도(FP8)

본 도표는 FP8, GPU 1장 및 100M 임베딩 모델 기준으로 데이터 임베딩 처리 속도를 비교합니다.

구분

TPS

처리 속도

B300

약 12,600K

최상 / ​압도적

B200

약 12,600K

최상 / ​압도적

H200

약 4,620K

매우 빠름

H100

약 4,620K

매우 빠름

A100

미 지원

느림

L40S

약 1,960K

보통

RTX 6K

약 2,800K

높음

<참고 사항>

​​​​​

  • 계산법: GPU 초 당 연산 능력 ÷ 토큰당 필요한 연산량 = TPS x 실질 효율(28%)

  • 예) B300의 초당 연산 능력 약 9 PFLOPS(단위 변환: 9,000,000 GFLOPS) ÷ 토큰당 필요한 연산량= = TPS x 실질 효율(28%)

  • 토큰당 필요한 연산량 = [1억개(100M) 파라미터 임베딩 모델 x 2 = 2억 FLOPs/Token(단위 변환 0.2 GFLOPs/Token)]

#03. RAG 시스템 운영 시, 실시간 동시 접속자 수(FP16)

본 도표는 FP16, GPU 8장 및 70B 모델 기준으로 동시에 접속이 가능한 사용자 수를 비교합니다.

구분

​메모리 용량

동시 접속자 수

B300 x 8장

2,304GB

대략 1,200명+

B200 x 8장

1,440GB

대략 800명+

H200 x 8장

1,128GB

대략 500명+

H100 x 8장

640GB

대략 300명

A100 x 8장

640GB

대략 250명

L40S x 8장

384GB

대략 140명

RTX 6K x 8장

768GB

대략 400명

<참고 사항>

​​​​​

  • ​계산법: (총 GPU 메모리 - 모델 가중치 크기) ÷ 사용자 당 KV 캐시 점유량 = 동시 접속자 수

  • 모델 가중치 크기: 모델 파라미터 수(70B) x 2 byte(FP16) = 140GB

  • 모델 가중치 크기는 이론적인 계산법 보다, 연산 오버헤드를 포함해 실제로는 최소 15%, 최대 40% 정도 높게 잡습니다.

  • 사용자 당 KV 캐시 점유량: 일반적인 RAG 시스템 환경(Context Windows 약 4k~8k 토큰 기준)에서 사용자 당 약 0.5GB ~ 1GB 수준의 메모리를 할당한다고 가정합니다.

  • B300 기준 예시: (총 메모리 2,304GB - 모델 가중치 크기 140GB) ÷ 사용자 당 KV 캐시 점유량 1GB = 2,164명

#04. RAG 시스템 운영 시, 실시간 동시 접속자 수(FP8)

본 도표는 FP8, GPU 8장 및 70B 모델 기준으로 동시에 접속이 가능한 사용자 수를 비교합니다.

구분

​메모리 용량

동시 접속자 수

B300 x 8장

2,304GB

대략 2,000명+

B200 x 8장

1,440GB

대략 1,800명+

H200 x 8장

1,128GB

대략 1,200명+

H100 x 8장

640GB

대략 700명

A100 x 8장

640GB

미 지원

L40S x 8장

384GB

대략 350명

RTX 6K x 8장

768GB

대략 900명

<참고 사항>

​​​​​

  • ​계산법: (총 GPU 메모리 - 모델 가중치 크기) ÷ 사용자 당 KV 캐시 점유량 = 동시 접속자 수

  • 모델 가중치 크기: 모델 파라미터 수(70B) x 1 byte(FP8) = 70GB

  • 모델 가중치 크기는 이론적인 계산법 보다, 연산 오버헤드를 포함해 실제로는 최소 15%, 최대 40% 정도 높게 잡습니다.

  • 사용자 당 KV 캐시 점유량: 일반적인 RAG 시스템 환경(Context Windows 약 4k~8k 토큰 기준)에서 사용자 당 약 0.5GB ~ 1GB 수준의 메모리를 할당한다고 가정합니다.

  • B300 기준 예시: (총 메모리 2,304GB - 모델 가중치 크기 70GB) ÷ 사용자 당 KV 캐시 점유량 1GB = 2,234명

  • ​미 지원 시, 양자화로 메모리 부족을 해결하거나, GPU 업그레이드 또는 추가 탑재가 권장됩니다.

#05. RAG 시스템 운영 시, 실시간 동시 접속자 수(FP4)

본 도표는 FP4, GPU 8장 및 70B 모델 기준으로 동시에 접속이 가능한 사용자 수를 비교합니다.

구분

​메모리 용량

동시 접속자 수

B300 x 8장

2,304GB

대략 4,500명+

B200 x 8장

1,440GB

대략 3,200명+

H200 x 8장

1,128GB

미 지원

H100 x 8장

640GB

미 지원

A100 x 8장

640GB

미 지원

L40S x 8장

384GB

미 지원

RTX 6K x 8장

768GB

대략 1,500명

<참고 사항>

​​​​​

  • ​계산법: (총 GPU 메모리 - 모델 가중치 크기) ÷ 사용자 당 KV 캐시 점유량 = 동시 접속자 수

  • 모델 가중치 크기: 모델 파라미터 수(70B) x 0.5 byte(FP4) = 35GB

  • 모델 가중치 크기는 이론적인 계산법 보다, 연산 오버헤드를 포함해 실제로는 최소 15%, 최대 40% 정도 높게 잡습니다.

  • 사용자 당 KV 캐시 점유량: 일반적인 RAG 시스템 환경(Context Windows 약 4k~8k 토큰 기준)에서 사용자 당 약 0.5GB ~ 1GB 수준의 메모리를 할당한다고 가정합니다.

  • B300 기준 예시: (총 메모리 2,304GB - 모델 가중치 크기 100GB) ÷ 사용자 당 KV 캐시 점유량 1GB = 2,269명

  • ​미 지원 시, 양자화로 메모리 부족을 해결하거나, GPU 업그레이드 또는 추가 탑재가 권장됩니다.

bottom of page