Nos últimos dois anos, quase todas as discussões sobre IA concentraram-se no poder computacional: GPUs insuficientes, capacidade computacional insuficiente e clusters subdimensionados.Parece que acumular mais poder de computação resolverá todos os problemas.
Mas este relatório enfatiza repetidamente um ponto crucial: O que realmente retarda a IA nunca é a incapacidade de calcular, mas a incapacidade de mover dados de forma eficiente.
Uma estatística deixa o problema bem claro: A leitura de dados da DRAM consome centenas de vezes mais energia do que da SRAM.Enquanto isso, a diferença de desempenho entre processadores e memória aumenta quase 50% a cada ano.
Grande parte do poder computacional que construímos freneticamente está simplesmente à espera de dados. Naquele momento, percebi algo impressionante: Podemos estar olhando para o gargalo errado para a IA o tempo todo.
Se o problema não for a computação em si, mas a separação entre computação e memória, então a verdadeira resposta pode não ser GPUs mais fortes. É deixar a própria memória participa da computação. Essa é a verdadeira história que este relatório pretende contar.
O verdadeiro gargalo do poder de computação da IA está mudando da computação para a memória, e a solução é mover a computação para a memória.
A computação de IA depende fortemente de operações MAC massivas (multiplicação e acumulação) e consome muitos dados. No entanto, a arquitetura clássica de von Neumann tem uma falha fatal:
Conclusão: A IA não falha na computação – ela falha na movimentação de dados de maneira acessível e rápida o suficiente.
A separação entre computação e memória força o transporte constante de dados, causando dois problemas críticos:
Isto é exactamente o que o relatório chama de Gargalo de von Neumann.
Uma tendência clara da indústria está surgindo: Os chips estão evoluindo de duas maneiras:
Enquanto isso, surgiu uma direção revolucionária: Computação na memória (IMC).
Sua ideia central: Execute operações lógicas, cálculos aritméticos e multiplicação de matrizes (o núcleo da IA) diretamente na memória.
Mudança fundamental: Memória = Armazenamento → Memória = Compute Engine
O relatório descreve várias rotas de implementação:
1. SRAM/eDRAM (caminho tradicional)
Computação em cache, cache neural
Prós: maduro, alta velocidade
Limites: área grande, escalabilidade limitada
2. Memória Emergente (Direção Mainstream)
Incluindo:
MRAM, PCM, ReRAM, FeRAM
Objetivo comum: transformar matrizes de memória em mecanismos de acumulação múltipla de matrizes com computação local e computação analógica (por exemplo, somatório de corrente para multiplicação de vetores).
Essência: array de memória = acelerador AI
Mas os desafios reais permanecem: precisão e ruído, variação de dispositivo, desvio de peso (especialmente em ReRAM) e problemas de retenção. O caminho é viável, mas extremamente desafiador em engenharia.
O relatório sublinha que o hardware por si só não é suficiente – os algoritmos também devem evoluir.
Conclusão principal: A otimização da eficiência da IA requer projeto conjunto de arquitetura, dispositivos e algoritmos.
O gargalo da IA está mudando de “poder de computação insuficiente” para “incapaz de mover dados com rapidez suficiente”. A resposta para os chips da próxima geração não são GPUs mais fortes, mas memória que pode calcular por si só.