Mellanox (NVIDIA) MQM9790-NS2F InfiniBand-switch in actie | Interconnect-optimalisatie met lage latentie voor RDMA/HPC/AI
May 28, 2026
Terwijl grootschalige AI-trainingsclusters en high-performance computing (HPC)-centra de netwerkbandbreedte- en latentievereisten naar ongekende niveaus tillen, worstelen traditionele Ethernet-oplossingen steeds meer met congestiebeheersing en onvoorspelbare staartlatentie onder RDMA-werklasten. Een toonaangevend nationaal supercomputercentrum werd onlangs met precies deze uitdaging geconfronteerd bij het upgraden van zijn GPU-cluster van de volgende generatie. Na het evalueren van meerdere interconnect-opties, selecteerde het team deMellanox (NVIDIA) MQM9790-NS2Fals de core fabric switch – een beslissing die het prestatieprofiel van hun cluster fundamenteel heeft getransformeerd.
Achtergrond en uitdaging: de schaalbaarheidsmuur
De bestaande HDR InfiniBand-structuur van het supercomputercentrum werkte bijna verzadiging. Met meer dan 2.000 GPU's die parallelle AI-trainingstaken uitvoeren, ondervonden collectieve communicatieoperaties zoals all-reduc en all-to-all aanzienlijke pieken in de latentie. Het netwerk was het belangrijkste knelpunt geworden, waardoor de GPU inactief was en zowel computerbronnen als energie verspilden. Ingenieurs schatten dat bijna 30% van de rekencycli verloren ging door communicatieoverhead tijdens grootschalige gedistribueerde trainingsruns.
Wat het team nodig had, was een omschakeling die deze resultaten kon opleveren400Gb/s per poort, native RDMA-ondersteuning en computerversnelling in het netwerk – en dat alles met behoud van achterwaartse compatibiliteit met de bestaande HDR-infrastructuur. Na het beoordelen van deMQM9790-NS2F gegevensbladEnMQM9790-NS2F-specificaties, stelden zij vast dat deMQM9790-NS2F InfiniBand-schakelaarbood de ideale balans tussen dichtheid, prestaties en functies.
Oplossing en implementatie: een NDR-fabricupgrade met 64 poorten
Het centrum heeft er vier ingezetMQM9790-NS2F 400Gb/s NDR 64-poorts OSFPswitches in een ruggengraattopologie, die 2.048 GPU's met elkaar verbinden over 64 rekennodes. Elke node wordt aangesloten via een enkele OSFP-naar-4x100Gb/s splitterkabel, waardoor een totale bandbreedte van 400Gb/s per server wordt geboden, terwijl de kabelbeheerdichtheid wordt geoptimaliseerd.
| Implementatieparameter | Configuratie |
|---|---|
| Wissel van model | NVIDIA Mellanox MQM9790-NS2F(4 eenheden) |
| Poortconfiguratie | 64x OSFP, 400 Gb/s NDR per poort |
| Totaal GPU's | 2.048 (NVIDIA H100) |
| Functies in het netwerk | SHARPv3, adaptieve routering, congestiebeheersing |
De sleutel tot de inzet was het garanderen van volledigeMQM9790-NS2F-compatibelwerking met bestaande HDR-eindpuntadapters. De automatische snelheidsonderhandeling en link-layer vertaling van de switch maakten een gefaseerde migratiestrategie mogelijk: oudere knooppunten werken op HDR-snelheden, terwijl nieuwe NDR-compatibele servers de volledige bandbreedte van 400 Gb/s benutten. Het centrum maakte ook gebruik van SHARPv3-in-netwerkaggregatie, waardoor het verkeer met meer dan 65% werd verminderd voor grote berichtgroottes die vaak voorkomen in LLM-trainingen.
Voor degenen die vergelijkbare upgrades evalueren:MQM9790-NS2F-prijsvragen enMQM9790-NS2F te koopbeschikbaarheid is aanzienlijk toegenomen onder zakelijke en onderzoeksklanten. De concurrerende totale eigendomskosten van de switch – rekening houdend met een lager aantal switches vanwege de dichtheid van 64 poorten – maken het een aantrekkelijke optie voor zowel nieuwbouw- als vernieuwingsprojecten.
Resultaten en voordelen: meetbare prestatiewinst
- Verlaag de latentie volledig (bericht van 1 GB):Verlaagd van 48 µs naar 19 µs (60% verbetering)
- Effectief GPU-gebruik:Stijging van 71% naar 93% tijdens grootschalige training
- Voltooiingstijd van de taak (GPT-3 175B-equivalent):Verkort met 41%
- Netwerkgeïnduceerde staartlatentie (99e percentiel):Snijd van 210 µs naar minder dan 35 µs
Als eenMQM9790-NS2F InfiniBand-switchoplossingtoonde de implementatie aan dat 400Gb/s NDR-fabrics hun theoretische beloften kunnen waarmaken. De combinatie van algoritmen voor congestiecontrole en adaptieve routering elimineerde de 'incast'-instortingspatronen die het vorige HDR-weefsel teisterden tijdens algemene communicatiefasen.
Samenvatting en vooruitzichten: een basis voor Exascale AI
Het succes van het supercomputercentrum met deMQM9790-NS2Fheeft hun routekaart naar exascale AI-mogelijkheden versneld. Ze plannen nu een tweede fase die het aantal GPU's zal verdubbelen tot 4.096 met behulp van extraMQM9790-NS2F 400Gb/s NDR 64-poorts OSFPschakelt in een drielaagse fattree-topologie. De telemetrie- en out-of-band-beheerfuncties van de switch hebben ook voorspellende congestievermijding mogelijk gemaakt, waardoor de operationele overhead voor het netwerkteam is verminderd.
Voor netwerkarchitecten en IT-managers die de volgende generatie fabrics evalueren, is deNVIDIA Mellanox MQM9790-NS2Fvertegenwoordigt een volwassen, in de productie bewezen oplossing. Of u nu een nieuw AI-onderzoekscluster bouwt of een bestaande HPC-faciliteit upgradet, deze switch levert de basis met lage latentie en hoge bandbreedte die nodig is voor moderne parallelle workloads.

