
MediaTek Dimensity 9600 e Google TPU v7 Ironwood: como a nuvem está ensinando o smartphone a gastar menos energia com IA
O chip do seu próximo smartphone não é mais só um “processadorzinho” para abrir apps e rodar redes sociais. Em 2025, um SoC topo de linha se parece muito mais com um mini data center no bolso: ele precisa dar conta de jogos pesados, gravação em 4K, câmeras cheias de processamento computacional e, cada vez mais, de modelos de inteligência artificial rodando em tempo real. É justamente aí que entra a parceria entre Google e MediaTek em torno do TPU v7 Ironwood – um acelerador de IA para data centers que, à primeira vista, parece distante do mundo mobile, mas que na prática pode moldar diretamente o que o Dimensity 9600 será capaz de entregar.
Ironwood é apresentado como um dos primeiros ASICs (circuitos integrados específicos para aplicação) verdadeiramente competitivos frente às GPUs NVIDIA Blackwell em cargas de trabalho de IA, especialmente em inferência. Mas o ponto mais interessante não é apenas a performance bruta; é o aprendizado de engenharia que esse projeto gera. Ao ajudar a desenhar partes críticas do Ironwood, a MediaTek ganha acesso privilegiado a técnicas de eficiência energética, organização de memória e interconexões em larga escala – o tipo de bagagem que vale ouro quando você precisa colocar “poder de data center” dentro do limite térmico de um smartphone.
Por que o Google TPU v7 Ironwood chama tanta atenção
Por anos, a NVIDIA dominou praticamente sozinha o mercado de hardware para IA com suas GPUs e o ecossistema CUDA. São peças extremamente flexíveis, capazes de treinar modelos gigantescos e também de executar inferência em produção. TPUs seguem uma filosofia diferente: em vez de tentar ser “o canivete suíço” da computação, são ASICs muito mais focados, otimizados até o limite para certos tipos de operações matemáticas e arquiteturas de rede neural.
Essa especialização tem custo – é mais difícil de projetar, exige escolhas rígidas – , mas traz recompensas importantes: uma relação desempenho por watt muito superior e, em escala, um custo total de propriedade (TCO) bem mais interessante. É justamente nesse cenário que o TPU v7 Ironwood chega: num momento em que a indústria está migrando de modelos gigantes, experimentais, para sistemas mais enxutos, otimizados e voltados ao mundo real, onde o gargalo está na inferência massiva, não só no treinamento.
Os números preliminares indicam que o Ironwood consegue ficar muito perto das GPUs mais recentes da NVIDIA em velocidade de inferência, ao mesmo tempo em que reduz custos de energia, refrigeração e ocupação física de rack. Para empresas como o Google, cada ganho de eficiência se traduz em mais serviços de IA viáveis, preços mais competitivos e, claro, pressão para levar parte dessas otimizações também para o dispositivo final – o smartphone no bolso do usuário.
Arquitetura do Ironwood: dois chiplets, muita memória e um mar de interconexões
No coração do TPU v7 Ironwood está um módulo de dois chiplets que, para o software, funciona como um único acelerador coeso. Cada chiplet reúne vários blocos especializados, desenhados para atacar diferentes partes típicas de uma carga de trabalho de IA:
- TensorCore com arranjo sistólico: é o bloco responsável pelo “feijão com arroz” da IA moderna: multiplicações de matrizes em grande escala. A arquitetura sistólica permite que dados fluam em ondas por um grid de unidades computacionais, reduzindo brutalmente a quantidade de leituras e escritas à memória HBM e aumentando a eficiência da banda disponível.
- Vector Processing Unit (VPU): redes neurais não vivem só de matrizes. Elas fazem também toneladas de operações elemento a elemento: funções de ativação como ReLU ou GELU, normalizações, operações simples de combinação de tensores. O VPU é ajustado para esse tipo de tarefa vetorial, limpando o que não se encaixa bem no fluxo de matriz pura.
- Matrix Multiply Unit (MXU): atua em conjunto com o TensorCore para outros tipos de multiplicação de matrizes, com formatos de dados diferentes ou requisitos mais específicos. Juntos, eles dão à arquitetura um equilíbrio entre flexibilidade e máxima eficiência.
- Dois SparseCores por chiplet: sparsidade virou palavra-chave nas arquiteturas de IA modernas. Em muitos cenários, boa parte dos pesos ou entradas pode ser ignorada sem perda significativa de qualidade. Os SparseCores são feitos para lidar com acessos de memória irregulares e dependentes de dados, muito comuns em embeddings. Em resumo, eles cuidam daquela parte em que você transforma categorias enormes – como vocabulários inteiros ou listas gigantes de IDs – em vetores compactos que os modelos conseguem digerir.
- 96 GB de HBM: cada módulo do TPU tem à disposição um volume enorme de memória de alta largura de banda. Isso é crucial para manter modelos grandes, tabelas de embeddings e intermediários complexos “colados” ao acelerador, sem precisar ficar derramando dados para memórias mais lentas.
Mas não adianta ter blocos poderosos se a comunicação entre eles vira gargalo. Por isso, o Ironwood usa um link die-to-die (D2D) entre os dois chiplets, cerca de seis vezes mais rápido que uma interconexão 1D ICI convencional. Na escala de rack, 64 chips são ligados por esse tecido ICI, garantindo aproximadamente 1,2 TB/s de banda bidirecional para cada chip. Esse conjunto de 64 aceleradores forma o que o Google chama de cubo.
Vários cubos, por sua vez, são conectados por uma rede de Optical Circuit Switch (OCS), formando um superpod. No limite máximo, um superpod Ironwood soma 144 cubos, ou 9.216 chips. É literalmente um oceano de unidades de matriz, vetores, SparseCores e HBM costurados em uma única malha de computação, pronto para treinar e servir modelos gigantescos. É dentro dessa infraestrutura que a MediaTek teve a chance de atuar de perto.
O papel da MediaTek dentro do projeto Ironwood
Em gerações anteriores de TPU, o Google trabalhou lado a lado com a Broadcom em praticamente todo o design. Com o Ironwood, o roteiro mudou um pouco. Relatos de mercado apontam que a MediaTek assumiu uma responsabilidade crítica: projetar os módulos de entrada e saída (I/O) do acelerador, a parte que faz a ponte entre o processador, a memória e o resto do sistema.
Normalmente, I/O não ganha muito tempo de palco em keynotes, mas na prática é um ponto vital. Qualquer latência extra ou desperdício nessa camada vira performance jogada fora e energia desperdiçada. Por isso, o fato de o Google confiar essa função a um parceiro externo diz muito sobre o nível de maturidade da MediaTek. Analistas do UBS estimam que essa colaboração pode render cerca de 4 bilhões de dólares à empresa, mas, mais do que o faturamento, o que pesa é o capital intelectual acumulado ao trabalhar em um dos aceleradores de IA mais avançados do mundo.
Do data center ao bolso: o que vai parar no Dimensity 9600
É importante deixar claro: um TPU de data center e um SoC móvel são bichos totalmente diferentes. Ironwood é um ASIC gigante, dedicado a rodar cargas de IA em racks de servidores. Já o Dimensity 9600 é um processador “faz-tudo”: precisa cuidar de CPU, GPU, modem 5G, ISP de câmera, codecs de mídia, IA on-device e ainda respeitar as limitações de bateria e temperatura de um smartphone fino.
Isso significa que a MediaTek não vai simplesmente copiar blocos do Ironwood para dentro do Dimensity 9600. O que realmente atravessa essa fronteira é o conhecimento de como construir caminhos de dados eficientes, como gerir energia em cenários extremos e como desenhar interconexões que não desperdiçam banda nem watts. Esse know-how pode aparecer no Dimensity 9600 em, pelo menos, três frentes:
- Power gating mais agressivo: o chip pode desligar de forma muito mais granular blocos de I/O, interfaces e partes do acelerador de IA quando não estão em uso, reduzindo o consumo em standby e em tarefas leves sem deixar o sistema “moscando” quando precisa acordar rápido.
- Escalonamento de tensão mais fino (DVFS): a experiência de apertar o orçamento de energia em milhares de TPUs dentro de um superpod ajuda a MediaTek a ser mais precisa ao definir qual tensão e frequência cada bloco do Dimensity 9600 realmente precisa em cada cenário, cortando gorduras de segurança exageradas.
- Clock gating e estratégia de tempo refinadas: com uma visão melhor dos caminhos reais de dados, é possível reduzir ou pausar clocks de subsistemas inteiros em janelas de ociosidade de milissegundos, algo quase invisível para o usuário, mas que faz diferença significativa na bateria e na temperatura.
Tudo isso ganha ainda mais peso se lembrarmos que as arquiteturas recentes de topo da MediaTek vêm reduzindo a dependência de núcleos “ultra eficientes” tradicionais. Sem esse colchão, boa parte do jogo de eficiência vai para as mãos do gerenciamento de energia e da inteligência do agendador do sistema. As lições aprendidas em um TPU como Ironwood, onde cada watt é amplificado por milhares de chips, se tornam especialmente valiosas nesse contexto.
Ambições de IA da MediaTek para além do smartphone
Os sinais vindos da própria empresa indicam que o plano da MediaTek não é ficar limitada à categoria de SoCs móveis. Já existem projetos em andamento para chips de IA dedicados a edge computing, automotivo, casa conectada e outros cenários onde rodar modelos localmente, com latência baixa e consumo controlado, é mais interessante do que depender de nuvem o tempo todo.
Nesses segmentos, a herança do TPU é ainda mais direta: conceitos como arrays sistólicos, suporte robusto a sparsidade e tratamento inteligente de acessos irregulares à memória podem ser reutilizados quase “um a um” em aceleradores dedicados. Mas, por enquanto, é o Dimensity 9600 que vai colocar essa ambição à prova diante do público, nos topos de linha Android que chegarão às lojas.
O que muda para o usuário e para o mercado
Para quem só quer um celular que dure o dia inteiro e não vire um fogareiro no meio da partida de jogo, toda essa conversa de TPU, chiplet e HBM pode parecer distante. Mas o efeito prático é bem direto. Um Dimensity 9600 mais eficiente significa aparelhos que esquentam menos sob carga pesada, mantêm a performance por mais tempo sem throttling agressivo e ainda conseguem entregar melhorias reais de bateria, mesmo rodando mais IA localmente.
Do ponto de vista da indústria, a colaboração Google–MediaTek reforça uma tendência clara: a de fragmentação do mercado de hardware para IA. As GPUs da NVIDIA continuam centrais para treinamento de modelos gigantes, mas ASICs como o Ironwood estão conquistando espaço em inferência e em soluções verticalmente integradas. Ao aproveitar essa onda e levar o “DNA” do TPU para o seu portfólio móvel, a MediaTek se posiciona como uma alternativa mais séria à Qualcomm no topo do mercado, especialmente em regiões sensíveis a custo e eficiência.
Dimensity 9600: entre o hype e a prova de fogo
Até os primeiros smartphones com Dimensity 9600 chegarem às mãos de reviewers e usuários, boa parte dessa história ainda é projeção. No entanto, a direção é clara. Ao participar da criação do I/O do Ironwood e conviver com os desafios de um superpod de 9.216 chips, a MediaTek passa a pensar eficiência, escalabilidade e robustez em outra escala. E isso, cedo ou tarde, transborda para o design dos SoCs que vão parar no varejo.
Se a empresa conseguir destilar bem essas lições, o resultado deve ser uma nova geração de flagships Android que não só “falam de IA” no marketing, mas que realmente entregam experiências melhores no dia a dia: câmeras mais rápidas e consistentes, assistentes inteligentes que funcionam offline sem matar a bateria, recursos generativos que não queimam a mão ao usar, e uma sensação geral de fluidez mesmo após longos períodos de uso. No fim das contas, o caminho entre o superpod do Google e o seu próximo smartphone é bem menor do que parece.