O verdadeiro gargalo da IA não é o poder da computação, mas a movimentação de dados – a computação na memória se torna a solução

Nos últimos dois anos, quase todas as discussões sobre IA concentraram-se no poder computacional: GPUs insuficientes, capacidade computacional insuficiente e clusters subdimensionados.Parece que acumular mais poder de computação resolverá todos os problemas.

Mas este relatório enfatiza repetidamente um ponto crucial: O que realmente retarda a IA nunca é a incapacidade de calcular, mas a incapacidade de mover dados de forma eficiente.

Uma estatística deixa o problema bem claro: A leitura de dados da DRAM consome centenas de vezes mais energia do que da SRAM.Enquanto isso, a diferença de desempenho entre processadores e memória aumenta quase 50% a cada ano.

Grande parte do poder computacional que construímos freneticamente está simplesmente à espera de dados. Naquele momento, percebi algo impressionante: Podemos estar olhando para o gargalo errado para a IA o tempo todo.

Se o problema não for a computação em si, mas a separação entre computação e memória, então a verdadeira resposta pode não ser GPUs mais fortes. É deixar a própria memória participa da computação. Essa é a verdadeira história que este relatório pretende contar.

Mensagem Central do Relatório

O verdadeiro gargalo do poder de computação da IA está mudando da computação para a memória, e a solução é mover a computação para a memória.

O verdadeiro problema: a eficiência da IA é limitada pela movimentação de dados

A computação de IA depende fortemente de operações MAC massivas (multiplicação e acumulação) e consome muitos dados. No entanto, a arquitetura clássica de von Neumann tem uma falha fatal:

A diferença de desempenho entre processadores e DRAM continua aumentando (cerca de 50% ao ano)
O custo de energia de acesso à memória é muito maior do que a própria computação (energia de leitura da DRAM ≈ 100× a da SRAM)

Conclusão: A IA não falha na computação – ela falha na movimentação de dados de maneira acessível e rápida o suficiente.

Contradição Central: O Gargalo de von Neumann

A separação entre computação e memória força o transporte constante de dados, causando dois problemas críticos:

Alta latência
Explosão do consumo de energia

Isto é exactamente o que o relatório chama de Gargalo de von Neumann.

Tendência principal: a memória se torna o novo centro de computação

Uma tendência clara da indústria está surgindo: Os chips estão evoluindo de duas maneiras:

A memória on-chip (SRAM) continua se expandindo
A largura de banda da memória continua aumentando

Enquanto isso, surgiu uma direção revolucionária: Computação na memória (IMC).

Sua ideia central: Execute operações lógicas, cálculos aritméticos e multiplicação de matrizes (o núcleo da IA) diretamente na memória.

Mudança fundamental: Memória = Armazenamento → Memória = Compute Engine

Caminhos técnicos: da SRAM às memórias emergentes

O relatório descreve várias rotas de implementação:

1. SRAM/eDRAM (caminho tradicional)
Computação em cache, cache neural
Prós: maduro, alta velocidade
Limites: área grande, escalabilidade limitada

2. Memória Emergente (Direção Mainstream)
Incluindo: MRAM, PCM, ReRAM, FeRAM

Objetivo comum: transformar matrizes de memória em mecanismos de acumulação múltipla de matrizes com computação local e computação analógica (por exemplo, somatório de corrente para multiplicação de vetores).

Essência: array de memória = acelerador AI

Mas os desafios reais permanecem: precisão e ruído, variação de dispositivo, desvio de peso (especialmente em ReRAM) e problemas de retenção. O caminho é viável, mas extremamente desafiador em engenharia.

Solução de sistema: cootimização de algoritmo de hardware

O relatório sublinha que o hardware por si só não é suficiente – os algoritmos também devem evoluir.

Compressão de modelo: poda, dispersão, decomposição de baixa classificação
Computação de baixa precisão: redes neurais binárias de ponto fixo
Treinamento com reconhecimento de hardware: STE, escassez de bits

Conclusão principal: A otimização da eficiência da IA requer projeto conjunto de arquitetura, dispositivos e algoritmos.

Conclusão Final

A memória on-chip tornou-se o principal recurso dos sistemas de IA
Memórias emergentes estão tornando a integração memória-computação a direção principal
Os chips de IA de próxima geração exigem co-design entre camadas, de dispositivos a algoritmos

Resumo

O gargalo da IA está mudando de “poder de computação insuficiente” para “incapaz de mover dados com rapidez suficiente”. A resposta para os chips da próxima geração não são GPUs mais fortes, mas memória que pode calcular por si só.

Selecione um idioma para exibição