AI-malware op Hugging Face: nep-OpenAI-model steelt gegevens
Sophie Jansen ยท
Luister naar dit artikel~4 min

Een kwaadaardige Hugging Face-repository deed zich voor als een OpenAI-release en installeerde infostealer-malware op Windows-machines. Het werd 244.000 keer gedownload. HiddenLayer onthult de details.
Stel je voor: je downloadt een AI-model van Hugging Face, denkend dat het van OpenAI komt, maar in plaats daarvan installeer je stiekem malware die al je wachtwoorden, browsergeschiedenis en zelfs cryptoportemonnees steelt. Dat is precies wat er gebeurde met een kwaadaardige repository die zich voordeed als een officiรซle OpenAI-release. Volgens onderzoek van het AI-beveiligingsbedrijf HiddenLayer werd het infostealer-malware op Windows-machines gezet en werd het ongeveer 244.000 keer gedownload voordat het werd verwijderd. Het aantal downloads is mogelijk opgeblazen door de aanvallers om het model populairder te laten lijken, dus de werkelijke impact is onduidelijk.
De repository heette 'Open-OSS/privacy-filter' en imiteerde OpenAI's Privacy Filter-release. HiddenLayer zegt dat de originele modelkaart bijna exact was gekopieerd. De kwaadwillenden voegden een kwaadaardig loader.py-bestand toe dat credential-stealing-malware ophaalde en uitvoerde op Windows-hosts. Binnen 18 uur stond de repo bovenaan de 'trending'-lijst op Hugging Face, met 667 likes โ ook dit getal kan zijn gemanipuleerd.
### Waarom dit een groot probleem is
Publieke AI-modelregisters worden steeds meer een risico in de software-aanvoerketen. Ontwikkelaars en data scientists klonen modellen direct in bedrijfsomgevingen die toegang hebben tot broncode, cloudcredentials en interne systemen. Dat maakt een gecompromitteerde repository meer dan alleen een overlast.
Het README-bestand van het nepmodel leek sterk op dat van het legitieme project, maar het week af doordat het gebruikers opdroeg om start.bat op Windows uit te voeren of python loader.py op Linux en macOS โ instructies die centraal stonden in de infectieketen die HiddenLayer beschreef. Eerder hebben onderzoekers al gewaarschuwd dat kwaadaardige code verborgen kan worden in AI-modelbestanden of bijbehorende setup-scripts op Hugging Face en andere publieke registers. Eerdere gevallen betroffen Pickle-geserialiseerde modelbestanden die platformscanners omzeilden.
### Kwaadaardige loader vermomd als setup-code
HiddenLayer zegt dat loader.py begon met neppe code die leek op een normale AI-modellader, maar snel overging naar een verborgen infectieketen. Een script schakelde SSL-verificatie uit, decodeerde een base64-gecodeerde URL van jsonkeeper.com, haalde een externe payload-instructie op en gaf commando's door aan PowerShell op Windows-machines. Het gebruik van het command-and-control-kanaal jsonkeeper.com stelde de aanvaller in staat om de payload te wisselen zonder de inhoud van de repo te veranderen.
Het PowerShell-commando downloadde vervolgens een extra batchbestand van een domein dat door de aanvaller werd gecontroleerd. De malware vestigde persistentie door een geplande taak te maken die leek op een legitiem Microsoft Edge-updateproces. De uiteindelijke payload was een Rust-gebaseerde infostealer. Volgens HiddenLayer richtte deze zich op:
- Chromium- en Firefox-afgeleide browsers
- Discord-lokale opslag
- Cryptovaluta-portefeuilles
- FileZilla-configuraties
- Hostsysteeminformatie
De malware probeerde ook Windows Antimalware Scan Interface en Event Tracing uit te schakelen.
### Grotere campagnes
HiddenLayer vond nog zes andere Hugging Face-repositories met vrijwel identieke loaderlogica die dezelfde infrastructuur deelden als de genoemde aanval. Deze zaak volgt op eerdere waarschuwingen over kwaadaardige AI-modellen op Hugging Face, waaronder vergiftigde AI-SDK's en nep-OpenClaw-installatieprogramma's. De rode draad is dat aanvallers AI-ontwikkelworkflows gebruiken als een route naar normaal veilige omgevingen.
AI-repositories bevatten vaak uitvoerbare code, setup-instructies, afhankelijkheidsbestanden, notebooks en scripts. Het zijn juist deze perifere elementen die de problemen veroorzaken, niet de modellen zelf. Sakshi Grover, senior research manager voor cybersecuritydiensten bij IDC, zegt dat traditionele SCA is ontworpen om afhankelijkheidsmanifests, bibliotheken en containerimages te inspecteren. Het is minder effectief in het identificeren van kwaadaardige loaderlogica in AI-repositories.
In het FutureScape-rapport van IDC van november 2025 staat dat tegen 2027 60% van de agentische AI-systemen een bill of materials moet hebben. Dit zou bedrijven helpen om bij te houden welke AI-artefacten ze gebruiken, hun bron en welke versies zijn goedgekeurd. Het is een oproep tot actie voor iedereen die met AI werkt.