Technische Oplossing: RDMA/RoCE lage latentie en doorvoeroptimalisatie met Mellanox
March 13, 2026
Moderne datacenters staan onder constante druk om hogere prestaties te leveren voor latentiegevoelige toepassingen zoals gedistribueerde databases, high-performance computing (HPC),en AI-opleidingsclustersTraditionele TCP/IP-netwerken leggen aanzienlijke CPU-overhead op, waardoor knelpunten ontstaan die de schaalbaarheid van applicaties beperken en de responstijden verlengen.Voor organisaties die hun infrastructuur willen moderniseren, is de kernvereiste duidelijk: latentie verminderen en de doorvoer van de server verhogen zonder kostbare architecturale herzieningen.
De oplossing ligt in de invoering van RDMA (Remote Direct Memory Access) via Converged Ethernet (RoCE).het omzeilen van de kernel van het besturingssysteem om CPU-bronnen vrij te maken en de latentie te minimaliserenDe kern van deze transformatie is de netwerkinterface kaart (NIC).MCX631432AN-ADABHet is een zeer belangrijk onderdeel van de ontwikkeling van de nieuwe technologieën voor de productie van textiel van Mellanox.
De voorgestelde architectuur is een leaf-spine fabric ontworpen voor een verliesloze Ethernet-omgeving, wat een voorwaarde is voor optimale RoCEv2-prestaties.Het ontwerp integreert het reken- en opslagverkeer via een unified, high-speed stof om de complexiteit en kosten te verminderen.
- Wervelkolomlaag:High-capacity 100GbE-switches bieden een niet-blokkerende connectiviteit tussen alle blad-switches, waardoor alle-tot-alle paden met lage latentie worden gewaarborgd.
- Bladlaag:Top-of-Rack (ToR) switches met 25GbE downlinks verbinden zich met servers en opslagnodes.Deze schakelaars zijn geconfigureerd met Priority Flow Control (PFC) en Explicit Congestion Notification (ECN) om een verliesloos weefsel te behouden.
- Serverlaag:Elke server is uitgerust metNVIDIA Mellanox MCX631432AN-ADAB, een dual-port 25GbE SFP28-adapter. Dit maakt netwerkbinding of afzonderlijke paden voor opslag- en berekeningsverkeer mogelijk.
Dit ontwerp zorgt ervoor dat deMCX631432AN-ADAB Ethernet-adapterkaartwerkt in een omgeving waarin RoCE-verkeer kan stromen zonder pakketverlies, wat van cruciaal belang is voor het handhaven van een hoge doorvoer en een lage latentie.
DeMCX631432AN-ADABHet is het kritische eindpunt dat de gehele oplossing mogelijk maakt. Als lid van de ConnectX-6 Lx-familie brengt het enterprise-grade functies naar de 25GbE-formfactor.MCX631432AN-ADAB Ethernet adapter kaart oplossingvoor zowel het berekenings- als het opslagverkeer, het afladen van netwerktaken van de server-CPU.
Belangrijkste technische bijdragen van de adapter zijn:
- Hardware-afladen:De kaart behandelt alle aspecten van het RoCE-protocol in hardware, waaronder transport, inkapseling en congestiebeheersing.
- Dual-Port Flexibiliteit:De dubbele 25GbE-poorten kunnen worden geconfigureerd voor actieve/standby-failover of worden gebruikt voor afzonderlijke verkeerssoorten.één poort kan front-end Ethernet-verkeer verwerken, terwijl de andere is gewijd aan back-end opslagverkeer met behulp van RoCE, waardoor de doorvoer en de beveiliging maximaal worden.
- PCIe 3.0 x16 Host Interface:Met voldoende bandbreedte om beide 25GbE-poorten tegelijkertijd te bedienen,MCX631432AN-ADAB ConnectX-6 Lx met twee poorten 25GbE SFP28zorgt ervoor dat er geen interne knelpunten zijn die de prestaties van de applicatie beperken.
Het inzetten van deMCX631432AN-ADABDe volgende stappen beschrijven een typische implementatie voor een high-performance cluster:
- Voorbereiding van weefsels:Voorafgaand aan de implementatie, configureer de netwerkswitches om RoCE te ondersteunen.Dit creëert de verliesloze omgeving die nodig is voor de adapter om optimaal te werken.
- Installatie van stuurprogramma en firmware:Installeer de nieuwste NVIDIA WinOF-2 stuurprogramma's (voor Windows) of MLNX_OFED (voor Linux) om volledige functiondersteuning te garanderen.MCX631432AN-ADABis up-to-date voor optimale RoCE-prestaties en compatibiliteit.
- Cluster opschalen:De architectuur schaalt horizontaal door meer servernodes toe te voegen, elk met zijn eigen MCX631432AN-ADAB.De niet-blokkerende blad-ruggengraat weefsel zorgt ervoor dat toegevoegde knooppunten niet de prestaties van de bestaande verslechterenVoor grotere implementaties kunnen linkaggregatiegroepen (LAG's) worden gebruikt tussen de blad- en de ruggengraatschakelaars.
Een typische topologie voor een database cluster omvat het verbinden van de primaire en replica servers op dezelfde bladschakelaar om inter-rack latency te minimaliseren.Elke server gebruikt zijn dual-port adapter om verbinding te maken met twee afzonderlijke blad schakelaars voor redundantie.
Eenmaal ingezet, vereist het handhaven van de prestaties proactieve monitoring en afstemming.MCX631432AN-ADABvoor dit doel uitgebreide telemetrie verstrekt.
- Monitoring van de belangrijkste indicatoren:Gebruik tools zoals `mlxstat` en `ethtool` om haventellers, linkfouten en RDMA-verkeersstatistieken te controleren.een hoog aantal wijst op een verliesstof die de prestaties van de RoCE zal verminderen.
- Firmware en stuurprogramma updates:Controleer regelmatig op updates. Nieuwe firmware bevat vaak prestatie-optimalisaties en bugfixes die de latentie verder kunnen verminderen en de compatibiliteit met upstream-switches kunnen verbeteren.
- Prestatie Tuning:Voor omgevingen met de meest veeleisende latentievereisten kunnen fijn afstemmende onderbrekingsmoderatie en buffergroottes incrementele winst opleveren.De flexibiliteit van de adapter stelt architecten in staat om op basis van hun specifieke werklast (e) instellingen in te kiezen..bv. HPC versus virtualisatie).
Voor het oplossen van problemen met de connectiviteit wordt gecontroleerd of de SFP28-modulesMCX631432AN-ADAB-compatibelHet gebruik van NVIDIA-gekwalificeerde optica zorgt voor een betrouwbare koppeling en prestaties.
DeMCX631432AN-ADABHet is de eerste keer dat de NVIDIA-platform een netwerk met hoge prestaties en lage latentie implementeert, met behulp van de geavanceerde RoCE-aflaadmogelijkheden.organisaties kunnen de dubbele voordelen bereiken van drastisch verminderde CPU overhead en aanzienlijk verhoogde server doorvoerDe gedetailleerdeMCX631432AN-ADAB-specificatiesenMCX631432AN-ADAB-gegevensbladde capaciteit te valideren om de meest veeleisende werkbelastingen aan te kunnen.
Voor IT-managers en netwerkarchitecten die een hardwarevernieuwing evalueren, vertalen de prestatiewinsten die deze oplossing biedt zich rechtstreeks in bedrijfswaarde: snellere transactieverwerking,efficiëntere toegang tot opslagIn het kader van de nieuwe technologieën, die in het kader van de nieuwe technologieën zullen worden ontwikkeld, zal de beschikbaarheid van de nieuwe technologieën en de nieuwe technologieën een grotere impact hebben op de ontwikkeling van de technologieën en op de ontwikkeling van nieuwe technologieën.MCX631432AN-ADABVoor gedetailleerde prijsinformatie of om te controleren of deMCX631432AN-ADAB prijsen beschikbaarheid, raadpleeg uw NVIDIA-vertegenwoordiger.

