Splitwise: 페이즈 분할을 통한 효율적인 생성형 LLM 추론

1. 서론

생성형 대규모 언어 모델(LLM)은 AI 응용 분야에 혁명을 가져왔지만, 높은 계산 집약도와 자원 요구 사항으로 인해 배포에 상당한 어려움을 겪고 있습니다. 다양한 분야에서 LLM의 빠른 도입은 GPU 용량에 대한 전례 없는 수요를 창출하여 전 세계적인 GPU 부족과 데이터센터의 전력 제약을 초래하고 있습니다.

2. 배경 및 동기

2.1 LLM 추론 특성

LLM 추론은 상반된 자원 요구 사항을 가진 두 개의 구별되는 페이즈로 구성됩니다:

프롬프트 계산 페이즈: 모든 입력 토큰에 대한 계산 집약적인 병렬 처리
토큰 생성 페이즈: 메모리 대역폭에 제한되는 순차적 출력 토큰 생성

2.2 하드웨어 한계

GPU 사양 비교

3.43× 계산 성능 증가 (H100 대비 A100)

1.64× 메모리 대역폭 증가

2.16× 비용 증가

1.75× 전력 소비 증가

3. Splitwise 설계

3.1 페이즈 분할 아키텍처

Splitwise는 두 개의 추론 페이즈를 서로 다른 하드웨어 플랫폼으로 분리하는 방식을 제안합니다:

프롬프트 머신: 계산 집약적인 프롬프트 처리를 위한 고성능 GPU(H100)
토큰 머신: 메모리 제한적인 토큰 생성을 위한 비용 효율적인 GPU(A100)

3.2 자원 관리

시스템은 최적화된 네트워크 라이브러리와 고속 상호 연결을 사용하여 페이즈 간 효율적인 상태 전송을 구현합니다. 수학적 기반은 추론 지연 시간을 다음과 같이 모델링합니다:

$L_{total} = L_{prompt} + n \times L_{token}$

여기서 $n$은 출력 토큰 수, $L_{prompt}$는 프롬프트 계산 지연 시간, $L_{token}$은 토큰당 생성 지연 시간입니다.

4. 실험 결과

4.1 성능 평가

Splitwise는 기존 접근 방식 대비 상당한 개선을 달성했습니다:

1.4배 높은 처리량 - 동종 클러스터 대비
20% 낮은 비용 - 동등한 성능 기준
2.35배 더 많은 처리량 - 동일한 전력 및 비용 예산 하에서

4.2 비용 및 전력 분석

이종 클러스터 설계는 특히 최신 GPU 계산 능력이 필요하지 않은 토큰 생성 페이즈에서 우수한 자원 활용도를 보여줍니다.

5. 기술 분석 프레임워크

핵심 통찰

Splitwise는 업계의 일률적인 GPU 배포 접근 방식에 근본적으로 도전합니다. 이 연구는 현재 LLM 서빙 아키텍처의 중요한 결함을 드러냅니다: 추론을 명백히 두 개의 구별되는 계산 패턴으로 구성됨에도 불구하고 단일 프로세스로 취급하는 것입니다. 이 통찰은 원래 트랜스포머 아키텍처 논문이 어텐션 메커니즘에 대해 밝힌 것만큼 중요합니다.

논리적 흐름

주장은 수학적 정밀도로 진행됩니다: (1) LLM 추론의 이중 모드 특성 규명, (2) A100/H100 분석을 통한 하드웨어 불일치 입증, (3) 정밀 솔루션으로서 페이즈 분리 제안, (4) 경험적 결과로 검증. 이 논리적 진행은 Google Borg 클러스터 관리 시스템과 같은 선구적인 시스템 논문의 접근 방식을 반영합니다.

강점 및 한계

강점: 고정된 제약 조건 하에서 2.35배의 처리량 개선은 NVIDIA의 텐서 코어가 달성한 도약에 비견할 만한 혁신적 성과입니다. 비용 절감은 기업의 LLM 도입을 가로막는 주요 장벽을 해소합니다.

한계: 이 접근 방식은 페이즈 간 네트워크 지연 시간을 도입하여 새로운 병목 현상을 생성합니다. 초기 마이크로서비스 아키텍처와 마찬가지로, 분산 상태 관리의 복잡성이 소규모 배포에서는 이점을 상쇄할 수 있습니다.

실행 가능한 통찰

클라우드 제공업체는 즉시 LLM 서비스에 페이즈 분할 아키텍처를 구현해야 합니다. 추론 클러스터를 구축하는 기업들은 이 이종 접근 방식을 채택하지 않으면 20-40%의 비용 손실을 감수해야 합니다. 이 연구는 우리가 2000년대 CPU/GPU 분화와 유사한 전문화된 AI 하드웨어 시대에 진입하고 있음을 시사합니다.

6. 향후 응용 및 방향

페이즈 분할 개념은 현재의 LLM을 넘어 새로운 아키텍처로 확장됩니다:

다중 모달 모델: 서로 다른 모달리티 인코더에 대한 분리된 처리
전문가 혼합: 특화된 페이즈별 하드웨어 간 동적 라우팅
엣지 배포: 엣지 장치와 클라우드 자원 간 분할
전문화된 하드웨어: 토큰 생성 페이즈를 위한 맞춤형 ASIC

7. 참고문헌

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Verma, A., et al. "Large-scale cluster management at Google with Borg." EuroSys 2015.
Cloud GPU Pricing. "AWS EC2 Instance Pricing." Accessed 2024.

목차