비교표 목록
* Tip: 목록을 클릭/터치하면 해당 비교표로 이동하고, 하단 TOP 버튼을 클릭하면 본 목록/상단으로 올라옵니다.
#01. RAG 시스템 구축 시, 임베딩 처리 속도(FP16)
본 도표는 FP16, GPU 1장 및 100M 임베딩 모델 기준으로 데이터 임베딩 처리 속도를 비교합니다.
구분
TPS
처리 속도
B300
약 6,300K
최상
B200
약 6,300K
최상
H200
약 2,240K
매우 높음
H100
약 2,240K
매우 높음
A100
약 436K
보통
L40S
약 980K
보통
RTX 6K
약 1,400K
높음
<참고 사항>
-
계산법: GPU 초 당 연산 능력 ÷ 토큰당 필요한 연산량 = TPS x 실질 효율(28%)
-
예) B300의 초당 연산 능력 약 9 PFLOPS(단위 변환: 9,000,000 GFLOPS) ÷ 토큰당 필요한 연산량= = TPS x 실질 효율(28%)
-
토큰당 필요한 연산량 = [1억개(100M) 파라미터 임베딩 모델 x 2 = 2억 FLOPs/Token(단위 변환 0.2 GFLOPs/Token)]
-
전체 GPU 서버 가격 페이지 또는 최대 48시간 내 견적 제공 페이지를 참고 바랍니다.
#02. RAG 시스템 구축 시, 임베딩 처리 속도(FP8)
본 도표는 FP8, GPU 1장 및 100M 임베딩 모델 기준으로 데이터 임베딩 처리 속도를 비교합니다.
구분
TPS
처리 속도
B300
약 12,600K
최상 / 압도적
B200
약 12,600K
최상 / 압도적
H200
약 4,620K
매우 빠름
H100
약 4,620K
매우 빠름
A100
미 지원
느림
L40S
약 1,960K
보통
RTX 6K
약 2,800K
높음
<참고 사항>
-
계산법: GPU 초 당 연산 능력 ÷ 토큰당 필요한 연산량 = TPS x 실질 효율(28%)
-
예) B300의 초당 연산 능력 약 9 PFLOPS(단위 변환: 9,000,000 GFLOPS) ÷ 토큰당 필요한 연산량= = TPS x 실질 효율(28%)
-
토큰당 필요한 연산량 = [1억개(100M) 파라미터 임베딩 모델 x 2 = 2억 FLOPs/Token(단위 변환 0.2 GFLOPs/Token)]
-
전체 GPU 서버 가격 페이지 또는 최대 48시간 내 견적 제공 페이지를 참고 바랍니다.
#03. RAG 시스템 운영 시, 실시간 동시 접속자 수(FP16)
본 도표는 FP16, GPU 8장 및 70B 모델 기준으로 동시에 접속이 가능한 사용자 수를 비교합니다.
구분
메모리 용량
동시 접속자 수
B300 x 8장
2,304GB
대략 1,200명+
B200 x 8장
1,440GB
대략 800명+
H200 x 8장
1,128GB
대략 500명+
H100 x 8장
640GB
대략 300명
A100 x 8장
640GB
대략 250명
L40S x 8장
384GB
대략 140명
RTX 6K x 8장
768GB
대략 400명
<참고 사항>
-
계산법: (총 GPU 메모리 - 모델 가중치 크기) ÷ 사용자 당 KV 캐시 점유량 = 동시 접속자 수
-
모델 가중치 크기: 모델 파라미터 수(70B) x 2 byte(FP16) = 140GB
-
모델 가중치 크기는 이론적인 계산법 보다, 연산 오버헤드를 포함해 실제로는 최소 15%, 최대 40% 정도 높게 잡습니다.
-
사용자 당 KV 캐시 점유량: 일반적인 RAG 시스템 환경(Context Windows 약 4k~8k 토큰 기준)에서 사용자 당 약 0.5GB ~ 1GB 수준의 메모리를 할당한다고 가정합니다.
-
B300 기준 예시: (총 메모리 2,304GB - 모델 가중치 크기 140GB) ÷ 사용자 당 KV 캐시 점유량 1GB = 2,164명
-
AI GPU 서버 및 인프라 구축 예산은 전체 GPU 서버 가격 또는 최대 48시간 내 견적 제공 페이지를 참고 바랍니다.
#04. RAG 시스템 운영 시, 실시간 동시 접속자 수(FP8)
본 도표는 FP8, GPU 8장 및 70B 모델 기준으로 동시에 접속이 가능한 사용자 수를 비교합니다.
구분
메모리 용량
동시 접속자 수
B300 x 8장
2,304GB
대략 2,000명+
B200 x 8장
1,440GB
대략 1,800명+
H200 x 8장
1,128GB
대략 1,200명+
H100 x 8장
640GB
대략 700명
A100 x 8장
640GB
미 지원
L40S x 8장
384GB
대략 350명
RTX 6K x 8장
768GB
대략 900명
<참고 사항>
-
계산법: (총 GPU 메모리 - 모델 가중치 크기) ÷ 사용자 당 KV 캐시 점유량 = 동시 접속자 수
-
모델 가중치 크기: 모델 파라미터 수(70B) x 1 byte(FP8) = 70GB
-
모델 가중치 크기는 이론적인 계산법 보다, 연산 오버헤드를 포함해 실제로는 최소 15%, 최대 40% 정도 높게 잡습니다.
-
사용자 당 KV 캐시 점유량: 일반적인 RAG 시스템 환경(Context Windows 약 4k~8k 토큰 기준)에서 사용자 당 약 0.5GB ~ 1GB 수준의 메모리를 할당한다고 가정합니다.
-
B300 기준 예시: (총 메모리 2,304GB - 모델 가중치 크기 70GB) ÷ 사용자 당 KV 캐시 점유량 1GB = 2,234명
-
미 지원 시, 양자화로 메모리 부족을 해결하거나, GPU 업그레이드 또는 추가 탑재가 권장됩니다.
-
AI GPU 서버 및 인프라 구축 예산은 전체 GPU 서버 가격 또는 최대 48시간 내 견적 제공 페이지를 참고 바랍니다.
#05. RAG 시스템 운영 시, 실시간 동시 접속자 수(FP4)
본 도표는 FP4, GPU 8장 및 70B 모델 기준으로 동시에 접속이 가능한 사용자 수를 비교합니다.
구분
메모리 용량
동시 접속자 수
B300 x 8장
2,304GB
대략 4,500명+
B200 x 8장
1,440GB
대략 3,200명+
H200 x 8장
1,128GB
미 지원
H100 x 8장
640GB
미 지원
A100 x 8장
640GB
미 지원
L40S x 8장
384GB
미 지원
RTX 6K x 8장
768GB
대략 1,500명
<참고 사항>
-
계산법: (총 GPU 메모리 - 모델 가중치 크기) ÷ 사용자 당 KV 캐시 점유량 = 동시 접속자 수
-
모델 가중치 크기: 모델 파라미터 수(70B) x 0.5 byte(FP4) = 35GB
-
모델 가중치 크기는 이론적인 계산법 보다, 연산 오버헤드를 포함해 실제로는 최소 15%, 최대 40% 정도 높게 잡습니다.
-
사용자 당 KV 캐시 점유량: 일반적인 RAG 시스템 환경(Context Windows 약 4k~8k 토큰 기준)에서 사용자 당 약 0.5GB ~ 1GB 수준의 메모리를 할당한다고 가정합니다.
-
B300 기준 예시: (총 메모리 2,304GB - 모델 가중치 크기 100GB) ÷ 사용자 당 KV 캐시 점유량 1GB = 2,269명
-
미 지원 시, 양자화로 메모리 부족을 해결하거나, GPU 업그레이드 또는 추가 탑재가 권장됩니다.
-
AI GPU 서버 및 인프라 구축 예산은 전체 GPU 서버 가격 또는 최대 48시간 내 견적 제공 페이지를 참고 바랍니다.