Splitwise: Inferência Eficiente de LLMs Generativos Usando Divisão de Fases

Índice

1. Introdução

Os grandes modelos de linguagem generativos (LLMs) revolucionaram as aplicações de IA, mas enfrentam desafios significativos de implantação devido à sua intensidade computacional e requisitos de recursos. A rápida adoção de LLMs em vários domínios criou uma procura sem precedentes por capacidade de GPU, levando a uma escassez mundial de GPUs e a limitações de energia em datacenters.

2. Contexto e Motivação

2.1 Características da Inferência de LLMs

A inferência de LLMs consiste em duas fases distintas com requisitos de recursos contrastantes:

Fase de Computação do Prompt: Processamento paralelo computacionalmente intensivo de todos os tokens de entrada
Fase de Geração de Tokens: Geração sequencial de tokens de saída, limitada pela largura de banda da memória

2.2 Limitações de Hardware

Comparação de Especificações de GPU

3.43× Aumento de Computação (H100 vs A100)

1.64× Aumento da Largura de Banda da Memória

2.16× Aumento de Custo

1.75× Aumento de Energia

3. Design do Splitwise

3.1 Arquitetura de Divisão de Fases

O Splitwise propõe separar as duas fases de inferência em diferentes plataformas de hardware:

Máquinas de Prompt: GPUs de alta gama (H100) para processamento intensivo de prompts
Máquinas de Token: GPUs de custo-benefício (A100) para geração de tokens limitada pela memória

3.2 Gestão de Recursos

O sistema utiliza bibliotecas de rede otimizadas e interconexões rápidas para uma transferência eficiente de estado entre fases. A base matemática envolve modelar a latência de inferência como:

$L_{total} = L_{prompt} + n \times L_{token}$

onde $n$ é o número de tokens de saída, $L_{prompt}$ é a latência de computação do prompt e $L_{token}$ é a latência de geração por token.

4. Resultados Experimentais

4.1 Avaliação de Desempenho

O Splitwise alcança melhorias significativas em comparação com abordagens convencionais:

Throughput 1.4× superior em comparação com clusters homogéneos
Custo 20% inferior para desempenho equivalente
Throughput 2.35× superior sob os mesmos orçamentos de energia e custo

4.2 Análise de Custo e Energia

O design de cluster heterogéneo demonstra uma utilização superior de recursos, particularmente para as fases de geração de tokens que não requerem as capacidades computacionais das GPUs mais recentes.

5. Estrutura de Análise Técnica

Intuição Central

O Splitwise desafia fundamentalmente a abordagem única da indústria para a implantação de GPUs. A pesquisa expõe uma falha crítica nas arquiteturas atuais de serviço de LLMs: tratar a inferência como um processo monolítico quando claramente consiste em dois padrões computacionais distintos. Esta intuição é tão significativa quanto a revelação sobre mecanismos de atenção no artigo original da arquitetura transformer.

Fluxo Lógico

O argumento progride com precisão matemática: (1) Caracterizar a natureza bimodal da inferência de LLMs, (2) Demonstrar o desajuste de hardware através da análise A100/H100, (3) Propor a separação de fases como solução cirúrgica, (4) Validar com resultados empíricos. Esta progressão lógica espelha a abordagem em artigos de sistemas fundamentais, como o sistema de gestão de clusters Google Borg.

Pontos Fortes e Fracos

Pontos Fortes: A melhoria de throughput de 2.35× sob restrições fixas é revolucionária — comparável ao salto alcançado pelos tensor cores da NVIDIA. A redução de custos aborda a principal barreira para a adoção empresarial de LLMs.

Pontos Fracos: A abordagem introduz latência de rede entre fases, criando um novo estrangulamento. Tal como nas primeiras arquiteturas de microserviços, a complexidade da gestão de estado distribuído pode superar os benefícios para implantações menores.

Insights Acionáveis

Os fornecedores de cloud devem implementar imediatamente arquiteturas de divisão de fases nas suas ofertas de LLMs. As empresas que constroem clusters de inferência devem adotar esta abordagem heterogénea ou enfrentar penalizações de custo de 20-40%. A pesquisa sugere que estamos a entrar numa era de hardware de IA especializado, muito parecida com a divergência CPU/GPU dos anos 2000.

6. Aplicações e Direções Futuras

O conceito de divisão de fases estende-se para além dos LLMs atuais para arquiteturas emergentes:

Modelos multi-modais: Processamento separado para diferentes codificadores de modalidade
Mistura de Especialistas: Encaminhamento dinâmico entre hardware especializado específico por fase
Implantações na Edge: Divisão entre dispositivos de edge e recursos de cloud
Hardware especializado: ASICs personalizados para fases de geração de tokens

7. Referências

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Verma, A., et al. "Large-scale cluster management at Google with Borg." EuroSys 2015.
Cloud GPU Pricing. "AWS EC2 Instance Pricing." Acedido em 2024.