Vera de la Nvidia: CPU ARM pentru servere AI eficiente

Vera de la Nvidia: CPU ARM pentru servere AI eficiente

Comentarii

4 Minute

Centrele de date rareori se schimbă peste noapte. Dar când o fac, observi zumzetul. Ramele devin mai dense. Latența scade. Costurile se reașază. Nvidia pariază că acel zumzet va primi în curând un nou nume: Vera.

Nvidia afirmă că Vera oferă aproximativ 1,8 ori performanță față de cele mai bune cipuri x86. Această afirmație e titlul. Hardware-ul din spate e ceea ce stârnește discuția. Vera este jumătatea CPU a platformei Vera Rubin, combinând un CPU bazat pe ARM cu un GPU Rubin pentru sarcini care necesită lățime de bandă mare pentru memorie și o coordonare strânsă între CPU și GPU.

De ce Vera schimbă modul de gândire pentru serverele AI

Vera este construită în jurul a 88 de nuclee Olympus cu multithreading spațial, oferind 176 de fire de execuție pe soclu. Memoria nu e un aspect ulterior: un singur CPU poate fi asociat cu până la 1,5 TB de memorie LPDDR5X, oferind aproximativ 1,2 TB pe secundă lățime de bandă. Pentru inferența AI și modelele agentice care consumă mult context și parametri, acea lățime de bandă este măsura supraviețuirii.

Gândește în termeni de scală. Nvidia a prezentat un rack CPU Vera care încarcă 256 de CPU-uri într-un singur șasiu. Asta înseamnă 22.528 de nuclee și 45.056 de fire de execuție. E genul de densitate pe care furnizorii de cloud o caută când încearcă să mute modele mari din insulele costisitoare bazate exclusiv pe GPU în arhitecturi mai flexibile, orientate pe CPU.

Vera funcționează bine și cu GPU-urile Rubin. Configurația NVL72 asociază 36 de CPU Vera cu 72 de GPU Rubin, iar Nvidia laudă un interconect NVLink-C2C de 1,8 TB pe secundă între ele. Scopul nu este să înlocuiască GPU-urile, ci să reproiecteze relația gazdă-accelerator astfel încât datele să circule mai rapid, iar software-ul să întâlnească mai puține blocaje.

Cazurile de utilizare sunt familiare, dar în creștere: inteligență artificială agentică, învățare prin recompensă, analize intensive și inferență la scară. Vera poate funcționa ca un nod de calcul autonom pentru aceste sarcini sau ca gazda care alimentează și sincronizează GPU-urile Rubin.

Adoptarea este deja în curs. Anthropic, OpenAI și SpaceXAI s-au angajat față de platformă pentru sarcinile lor de modelare, iar hyperscaleri precum ByteDance, CoreWeave și Oracle Cloud Infrastructure sunt la bord. Pe partea de sisteme, Dell, HP, Lenovo și Supermicro vor oferi servere bazate pe Vera. Producători importanți, inclusiv Asus, Compal, Foxconn, Gigabyte, Pegatron, Quanta Cloud Technology, Wistron și Wiwynn, vor produce hardware construit în jurul cipului.

Chiar și clienții nontradiționali observă. Bursa de Valori din New York, care procesează aproximativ 1,1 trilioane de mesaje pe zi, explorează Vera împreună cu partenerii Redpanda și HP pentru a reimagina infrastructura sensibilă la latență. Un astfel de interes arată că platforma este evaluată pentru mai mult decât antrenarea modelelor; este luată în considerare pentru sisteme în timp real cu debit ridicat, unde fiecare microsecundă contează.

Pentru Nvidia, Vera extinde o foaie de parcurs familiară: preia învățămintele din implementările AI orientate prioritar spre GPU și le aplică proiectării de CPU. Compania a integrat anterior munca sa în AI în produse precum RTX Spark, care a adus în prim-plan CPU-urile Grace și GPU-urile Blackwell cu memorie LPDDR5X. Acum discuția s-a mutat de la performanța GPU-ului pe nod singular către echilibrul și debitul la nivel de sistem.

Va detrona Vera x86 în centrele de date? Nu peste noapte. Dar arhitectura vizează puncte sensibile specifice pentru sarcinile AI: lățimea de bandă a memoriei, densitatea firelor de execuție și interconectarea rapidă CPU-GPU. Pentru inginerii și arhitecții care luptă cu costurile modelelor și debitul, acesta este un început practic.

Sursa: gsmarena

Lasă un Comentariu

Comentarii