NVIDIA en Google verlagen AI-inferentiekosten met 10x

·
Luister naar dit artikel~5 min
NVIDIA en Google verlagen AI-inferentiekosten met 10x

NVIDIA en Google Cloud presenteren op de Next-conferentie een nieuwe hardware-roadmap die AI-inferentiekosten tot tien keer verlaagt. Ontdek de A5X-instanties en verbeterde beveiliging.

Op de Google Cloud Next-conferentie hebben Google en NVIDIA een nieuwe hardware-roadmap gepresenteerd die specifiek is ontworpen om de kosten van AI-inferentie op schaal aan te pakken. Dit is geen kleine stap, maar een flinke sprong vooruit. ### De A5X-instanties: een nieuwe standaard De bedrijven introduceerden de gloednieuwe A5X bare-metal instanties, die draaien op NVIDIA Vera Rubin NVL72 rack-scale systemen. Door hardware en software nauw op elkaar af te stemmen, belooft deze architectuur de inferentiekosten per token tot wel tien keer te verlagen in vergelijking met eerdere generaties. Tegelijkertijd wordt de token-doorvoer per megawatt tien keer hoger. Dat betekent simpelweg: meer rekenkracht voor minder geld en energie. ![Visuele weergave van NVIDIA en Google verlagen AI-inferentiekosten met 10x](https://ppiumdjsoymgaodrkgga.supabase.co/storage/v1/object/public/etsygeeks-blog-images/domainblog-511f8c16-f974-4a6c-8283-4358e1ef849d-inline-1-1777608084903.webp) ### De uitdaging van connectiviteit Duizenden processoren met elkaar verbinden vraagt om enorme bandbreedte om vertragingen te voorkomen. De A5X-instanties lossen dit op door NVIDIA ConnectX-9 SuperNICs te combineren met Google Virgo-netwerktechnologie. Het resultaat? Een configuratie die kan opschalen naar 80.000 NVIDIA Rubin GPU's in één cluster op één locatie, en tot 960.000 GPU's verspreid over meerdere locaties. Dat is een gigantisch aantal parallelle processoren, en het beheren daarvan vereist een uiterst precieze synchronisatie om te voorkomen dat er rekentijd verloren gaat. ### Een visie op de toekomst van AI Mark Lohmeyer, VP en GM van AI en Computing Infrastructure bij Google Cloud, verwoordde het treffend: "Bij Google Cloud geloven we dat het volgende decennium van AI wordt bepaald door de mogelijkheid van klanten om hun meest veeleisende workloads te draaien op een echt geïntegreerde, AI-geoptimaliseerde infrastructuurstack." Hij voegde eraan toe dat de combinatie van Google Cloud's schaalbare infrastructuur en NVIDIA's toonaangevende platforms klanten de flexibiliteit geeft om alles te trainen, af te stemmen en te serveren, van frontier-modellen tot agentische en fysieke AI-workloads, terwijl ze tegelijkertijd prestaties, kosten en duurzaamheid optimaliseren. ### Databeheer en beveiliging in de cloud Naast pure rekenkracht blijft databeheer een belangrijk punt voor bedrijfsimplementaties. Sectoren zoals financiën en gezondheidszorg lopen vaak vast bij machine learning-initiatieven vanwege data-soevereiniteit en het risico op blootstelling van gevoelige informatie. Om aan deze compliance-eisen te voldoen, komen Google Gemini-modellen die draaien op NVIDIA Blackwell en Blackwell Ultra GPU's in preview beschikbaar op Google Distributed Cloud. Hierdoor kunnen organisaties hun meest geavanceerde modellen volledig in hun eigen gecontroleerde omgeving houden, samen met hun meest gevoelige data. De architectuur maakt gebruik van NVIDIA Confidential Computing. Dit beveiligingsprotocol op hardwareniveau zorgt ervoor dat trainingsmodellen in een beschermde omgeving werken, waarbij prompts en fine-tuning-data versleuteld blijven. De encryptie voorkomt dat onbevoegden, inclusief de cloudinfrastructuurbeheerders zelf, de onderliggende data kunnen inzien of wijzigen. ### Nieuwe mogelijkheden voor gereguleerde sectoren Voor multi-tenant public cloud-omgevingen is er een preview van Confidential G4 VMs met NVIDIA RTX PRO 6000 Blackwell GPU's. Deze bieden dezelfde cryptografische bescherming, waardoor gereguleerde industrieën toegang krijgen tot krachtige hardware zonder hun privacy-normen te schenden. Dit is de eerste cloud-gebaseerde confidential computing-oplossing voor NVIDIA Blackwell GPU's. ### Operationele overhead bij agentische AI Het bouwen van meerstaps-agentische systemen vereist het koppelen van grote taalmodellen aan complexe API's, het continu synchroniseren van vector-databases en het actief verminderen van algoritmische hallucinaties tijdens de uitvoering. Om deze zware engineering last te verlichten, is NVIDIA Nemotron 3 Super nu beschikbaar op het Gemini Enterprise Agent Platform. Dit platform biedt ontwikkelaars tools om redenerende en multimodale modellen aan te passen en te implementeren, specifiek voor agentische taken. Het bredere NVIDIA-platform op Google Cloud is geoptimaliseerd voor verschillende modellen, waaronder Google's Gemini- en Gemma-families. Dit geeft ontwikkelaars de tools om systemen te bouwen die kunnen redeneren, plannen en handelen. Het trainen van deze modellen op schaal brengt echter een aanzienlijke operationele overhead met zich mee, vooral wanneer je de prestaties en kosten in balans moet houden. ### Conclusie De samenwerking tussen NVIDIA en Google Cloud zet een nieuwe standaard voor AI-infrastructuur. Met een focus op lagere kosten, hogere efficiëntie en verbeterde beveiliging, biedt deze roadmap bedrijven de tools om AI op een verantwoorde en schaalbare manier in te zetten. Voor Nederlandse professionals in de AI-sector is dit een ontwikkeling om nauwlettend te volgen.