Netwerkknelpunten in AI-trainingsclusters: Oplossingen van Mellanox
September 23, 2025
Persbericht:Aangezien modellen van kunstmatige intelligentie exponentieel complexer worden, is de vraag naar hoogwaardige, schaalbare computing nog nooit zo groot geweest.Een cruciaal maar vaak over het hoofd gezien onderdeel is de onderliggendeAI-netwerkenMellanox, een pionier in high-performance interconnect oplossingen, gaat deze precieze uitdaging aan met zijn geavanceerdeonderlinge verbinding met lage latentieDe Commissie heeft de Commissie verzocht om een verslag uit te brengen over de resultaten van de evaluatie van het onderzoek.GPU-cluster.
Moderne AI-opleiding, met name voor Large Language Models (LLM's) en computervisie, is gebaseerd op parallelle verwerking over grote arrays GPU's.Netwerkgerelateerde knelpunten kunnen ervoor zorgen dat het GPU-gebruik daalt van een potentiële 95% tot onder de 40%Deze inefficiëntie vertaalt zich rechtstreeks in langere trainingstijden, verhoogd energieverbruik en aanzienlijk hogere operationele kosten.AI-netwerkenNiet alleen een voordeel, maar een noodzaak.
Mellanox's aanpak is holistisch en biedt een complete infrastructuurstapel die is ontworpen voor AI-workloads.De kern van deze oplossing is de Spectrum-familie van Ethernet-switches en de ConnectX-serie van Smart Network Interface Cards (NIC)Deze componenten zijn speciaal ontworpen om in unison te werken, waardoor een wrijvingsloze datapijplijn tussen servers ontstaat.
Belangrijkste technologische onderscheidende kenmerken zijn:
- Netwerkcomputing:Verlaadt dataverwerkingstaken van de CPU naar de NIC, waardoor de latentie drastisch wordt verminderd.
- Adaptieve routing en RoCE:Zorgt voor een optimale datapadselectie en maakt gebruik van RDMA over Converged Ethernet (RoCE) voor efficiënte,onderlinge verbinding met lage latentiecommunicatie.
- Scalable Hierarchical Fabric (schaalbaar hiërarchisch materiaal):Ondersteunt niet-blokkerende Clos (leaf-spine) architecturen die kunnen schalen naar tienduizenden poorten zonder afname van de prestaties.
De werkzaamheid van Mellanox is bewezen in de praktijk.De volgende tabel toont een prestatievergelijking tussen een standaard TCP/IP-netwerk en een Mellanox RoCE-geactiveerde fabric in een grootschalige AI-trainingsomgeving.
| Metrische | Standaard TCP/IP-fabriek | Mellanox RoCE-stof | Verbetering |
|---|---|---|---|
| Werktijd (1024 GPU's) | 48 uur | 29 uur | ~ 40% sneller |
| Gemiddeld GPU-gebruik | 45% | 90% | 2x hoger |
| Inter-node latency | > 100 μs | < 1,5 μs | ~99% lager |
Voor bedrijven en onderzoeksinstellingen die miljoenen investeren in GPU-berekeningsmiddelen, is het netwerk het centrale zenuwstelsel dat de totale ROI bepaalt.AI-netwerkenDe oplossingen bieden de kritiekeonderlinge verbinding met lage latentievereist om ervoor te zorgen dat een multi-knooppuntGPU-clusterDit resulteert in een snellere inzichtstijd, een lagere totale eigendomskosten (TCO) en de mogelijkheid om ambitieuze AI-uitdagingen aan te gaan.

