AI2's MolmoBot: Fysieke AI Bouwen met Virtuele Simulaties
Sophie Jansen ยท
Luister naar dit artikel~4 min

AI2's MolmoBot traint robots volledig in virtuele simulaties, waardoor dure echte datacollectie overbodig wordt. Met 1,8 miljoen synthetische trajecten en vier keer snellere doorvoer revolutioneert dit de ontwikkeling van fysieke AI.
Stel je voor dat je een robot kunt trainen zonder dat 'ie ooit iets in het echt heeft aangeraakt. Dat klinkt als science fiction, toch? Maar het is precies waar onderzoekers van het Allen Institute for AI (AI2) mee bezig zijn. Hun MolmoBot-project verandert de spelregels voor fysieke AI door volledig te vertrouwen op virtuele simulaties.
Traditioneel is het trainen van robots om met de echte wereld om te gaan ontzettend duur en tijdrovend. Je moet alles handmatig demonstreren, alsof je een kind elke beweging apart moet leren. Projecten zoals DROID verzamelden 76.000 teleoperated trajecten van 13 instituten โ goed voor zo'n 350 uur menselijke inspanning. Google DeepMind's RT-1 had 130.000 episodes nodig, verzameld over 17 maanden.
Dat is niet alleen duur, het beperkt innovatie ook tot een handjevol goed gefinancierde labs. Ali Farhadi, CEO van AI2, zegt het zo: โOnze missie is om AI te bouwen die de wetenschap vooruit helpt en uitbreidt wat de mensheid kan ontdekken. Robotica kan een fundamenteel wetenschappelijk instrument worden.โ
### De revolutie van synthetische data
AI2's team koos een radicaal andere aanpak met MolmoBot. In plaats van eindeloos echte data te verzamelen, trainen ze hun robotmanipulatiemodellen volledig op synthetische informatie. Ze genereren trajecten in een systeem genaamd MolmoSpaces, waardoor menselijke teleoperatie overbodig wordt.
Het bijbehorende dataset, MolmoBot-Data, bevat maar liefst 1,8 miljoen expertmanipulatie-trajecten. Die zijn gemaakt door de MuJoCo physics engine te combineren met agressieve domain randomization. Ze variรซren objecten, gezichtspunten, belichting en dynamica โ alsof je een robot traint in miljoenen parallelle universums.
Ranjay Krishna, directeur van het PRIOR-team bij AI2, legt uit: โDe meeste benaderingen proberen de kloof tussen simulatie en realiteit te dichten door meer echte data toe te voegen. Wij wedden op het tegenovergestelde: die kloof wordt kleiner als je de diversiteit van gesimuleerde omgevingen, objecten en cameracondities drastisch uitbreidt.โ

### Vier keer sneller dan de realiteit
De cijfers zijn indrukwekkend. Met 100 Nvidia A100 GPU's genereert hun pipeline ongeveer 1.024 episodes per GPU-uur. Dat staat gelijk aan meer dan 130 uur robotervaring voor elk uur wall-clock time. Vergeleken met echte datacollectie is dat bijna vier keer de doorvoersnelheid.
Voor bedrijven betekent dit concreet:
- Snellere implementatiecycli
- Lagere ontwikkelkosten
- Betere return on investment
Het is alsof je een piloot kunt trainen in een vluchtsimulator die vier keer sneller gaat dan echte vlieguren maken.
### Drie modellen, twee platforms
De MolmoBot-suite omvat drie verschillende policy classes, getest op twee platforms: de Rainbow Robotics RB-Y1 mobiele manipulator en de Franka FR3 tafelarm. Het primaire model, gebouwd op een Molmo2 vision-language backbone, verwerkt meerdere timesteps van RGB-observaties en taalinstructies om acties te dicteren.
Voor edge computing-omgevingen met beperkte resources bieden de onderzoekers MolmoBot-SPOC, een lichtgewicht transformer policy met minder parameters. MolmoBot-Pi0 gebruikt een PaliGemma-backbone om de architectuur van Physical Intelligence's ฯ0-model te evenaren.
### De resultaten spreken voor zich
Tijdens fysieke tests toonden deze policies zero-shot transfer naar taken in de echte wereld met onbekende objecten en omgevingen โ zonder enige fine-tuning. In tafel pick-and-place evaluaties behaalde het primaire MolmoBot-model een slagingspercentage van 79,2%. Dat overtreft ฯ0.5, een model getraind op uitgebreide echte demonstratiedata, dat slechts 39,2% haalde.
Voor mobiele manipulatie voerden de policies succesvol taken uit zoals benaderen, grijpen en deuren door hun volledige bewegingsbereik trekken. Het bewijs is er: virtuele werelden kunnen robots beter voorbereiden op de onze.
De toekomst van robotica ligt niet in het verzamelen van meer echte data, maar in het ontwerpen van betere virtuele werelden. En dat is een probleem dat we kunnen oplossen.