Entreprises | juillet 15, 2025

Project Rainier : Amazon bâtit un géant électronique pour l’IA

Evertiq

Amazon, via son projet Rainier, a annoncé dans un communiqué le déploiement de l’un des plus grands clusters de supercalculateurs au monde, dédié à l’entraînement de modèles d’intelligence artificielle d’Anthropic. Cette initiative, qui mobilisera des centaines de milliers de puces Trainium2, s’inscrit dans la stratégie d’Amazon de verticaliser sa chaîne de valeur technologique, depuis le silicium jusqu’à l’infrastructure logicielle.

Au centre du dispositif, la puce Trainium2, conçue par Annapurna Labs (filiale d’Amazon), incarne l’ambition d’indépendance technologique d’AWS face à Nvidia. Chaque Trainium2 est un assemblage de deux matrices de calcul gravées en 5 nm par TSMC, reliées par la technologie avancée CoWoS. Elle offre :

1,3 pétaflops de performance dense FP8 par puce
96 Go de mémoire HBM à large bande passante
2,9 To/s de bande passante mémoire

La prise en charge de la sparsité 4x permet d’atteindre 5,2 pétaflops FP8 sparse, un chiffre qui, s’il reste inférieur à la B200 de Nvidia en puissance brute, se distingue par une intégration logicielle et matérielle optimisée pour les charges IA massives.

UltraCluster EC2 et UltraServers : l’architecture du gigantisme

Le cluster Rainier s’articule autour d’UltraServers, chacun embarquant 64 accélérateurs Trainium2 et délivrant jusqu’à 332 pétaflops de calcul FP8 sparse. L’architecture distribuée s’appuie sur :

L’interconnexion propriétaire NeuronLink v2, doublant la bande passante de la génération précédente et rivalisant avec NVLink de Nvidia.
Le réseau Elastic Fabric Adapter (EFA) d’AWS, garantissant une latence ultra-faible entre les serveurs répartis sur plusieurs centres de données.
Un système de refroidissement liquide de pointe et 8 To de mémoire haute performance par châssis.

Cette conception permet à Rainier de fonctionner comme un système unifié, malgré sa dispersion géographique, et d’atteindre une évolutivité supérieure à 100 000 puces interconnectées.

Souveraineté technologique et optimisation verticale

En développant ses propres puces, serveurs et interconnexions, Amazon s’offre un contrôle total sur la pile IA  avec l’optimisation énergétique et thermique à tous les niveaux (puce, serveur, data center), la possibilité d’ajuster le design électrique et la disposition physique des centres de données pour maximiser l’efficacité ainsi que l’intégration logicielle poussée, permettant des gains de performance et d’agilité dans le déploiement de nouveaux modèles IA.

Cette stratégie vise à réduire la dépendance aux GPU Nvidia, à baisser les coûts et à accélérer la mise sur le marché de modèles de langage de nouvelle génération.

Une consommation énergétique et des défis environnementaux inédits

Le site principal dans l’Indiana, avec ses trente centres de données, pourrait consommer jusqu’à 2,2 gigawatts d’électricité, soit plus qu’une ville moyenne. La pression sur les ressources hydriques, liée au refroidissement intensif, et l’empreinte carbone de la construction (béton, acier, transport, fabrication des puces) soulèvent de vives inquiétudes.

Amazon affirme viser 100 % d’énergies renouvelables, mais la réalité sur le terrain, notamment en Indiana, demeure sujette à controverse. Les stratégies de compensation carbone et d’économie d’eau restent floues.

Rainier, Stargate et la nouvelle course à l’hyperscale

Avec Rainier, Amazon rejoint le club fermé des géants de l’IA hyperscale, aux côtés de Stargate (OpenAI/Microsoft) et des TPUv5 de Google. Ces projets redéfinissent l’infrastructure électronique mondiale :

Conception de puces propriétaires
Réseaux d’interconnexion sur mesure
Refroidissement et alimentation repensés pour l’ultra-massif

La taille finale de Rainier reste inconnue, mais l’assemblage de « dizaines de milliers » d’UltraServers laisse présager un système sans précédent en termes de puissance et de complexité électronique.