Besmet Hugging Face-model doet zich voor als OpenAI
Sophie Jansen ·
Luister naar dit artikel~4 min

Een kwaadaardig Hugging Face-model dat zich voordeed als OpenAI, verspreidde malware en werd 244.000 keer gedownload. Ontdek hoe de aanval werkte en wat je kunt doen om jezelf te beschermen.
Stel je voor: je downloadt een AI-model van Hugging Face, een platform dat door duizenden ontwikkelaars wordt vertrouwd, en je krijgt er stiekem malware bij. Dat is precies wat er gebeurde met een kwaadaardige repository die zich voordeed als een officiële OpenAI-release. Volgens onderzoek van HiddenLayer, een AI-beveiligingsbedrijf, werd deze nep-repository maar liefst 244.000 keer gedownload voordat hij werd verwijderd. Het aantal downloads is waarschijnlijk kunstmatig opgehoogd door de aanvallers, dus de echte impact is onbekend. Dit is een serieuze waarschuwing voor iedereen die met AI-modellen werkt.
### Wat was er precies aan de hand?
De repository, genaamd 'Open-OSS/privacy-filter', kopieerde bijna exact de officiële Privacy Filter-release van OpenAI. De aanvallers voegden een kwaadaardig bestand toe, loader.py, dat op Windows-systemen inloggegevens stal. De repository stond binnen 18 uur bovenaan de 'trending'-lijst op Hugging Face, met 667 likes. Ook dit getal kan zijn gemanipuleerd. Het probleem is dat ontwikkelaars en data scientists deze modellen direct in hun bedrijfsomgevingen klonen, die toegang hebben tot broncode, cloud-inloggegevens en interne systemen. Dat maakt een gecompromitteerde repository meer dan een irritant probleem.

### Hoe werkte de aanval?
De README van het nepmodel leek sprekend op die van het echte project, maar week af door gebruikers te instrueren om start.bat op Windows of python loader.py op Linux en macOS uit te voeren. Deze instructies waren de kern van de infectie. Eerder waarschuwden onderzoekers al dat kwaadaardige code verborgen kan zitten in AI-modelbestanden of installatiescripts op Hugging Face. Eerdere gevallen gebruikten Pickle-geserialiseerde modelbestanden die beveiligingsscanners omzeilden.
### De kwaadaardige lader
HiddenLayer ontdekte dat loader.py begon met onschuldige code die leek op een normale AI-model-lader, maar snel overging op een verborgen infectie. Het script schakelde SSL-verificatie uit, decodeerde een base64-gecodeerde URL naar jsonkeeper.com, haalde een externe payload-instructie op en gaf commando's door aan PowerShell op Windows. Het gebruik van jsonkeeper.com stelde de aanvaller in staat om de payload te wijzigen zonder de repository aan te passen. PowerShell downloadde vervolgens een batchbestand van een domein dat door de aanvaller werd gecontroleerd, en de malware bleef actief door een geplande taak aan te maken die leek op een legitieme Microsoft Edge-update.
### Wat stal de malware?
De uiteindelijke payload was een in Rust geschreven infostealer. Het richtte zich op:
- Chromium- en Firefox-gebaseerde browsers
- Discord-lokale opslag
- Cryptocurrency-wallets
- FileZilla-configuraties
- Systeeminformatie van de host
De malware probeerde ook Windows Antimalware Scan Interface en Event Tracing uit te schakelen. Dit is een geavanceerde aanval die gericht is op het stelen van gevoelige gegevens.
### Grotere campagne
HiddenLayer vond nog zes andere Hugging Face-repositories met vrijwel identieke laderlogica die dezelfde infrastructuur gebruikten. Dit volgt op eerdere waarschuwingen over kwaadaardige AI-modellen, zoals vergiftigde AI-SDK's en nep-OpenClaw-installatieprogramma's. De gemene deler is dat aanvallers AI-ontwikkelworkflows gebruiken als toegangspoort tot normaal beveiligde omgevingen. AI-repositories bevatten vaak uitvoerbare code, installatie-instructies, afhankelijkheidsbestanden, notebooks en scripts. Het zijn deze randzaken die problemen veroorzaken, niet de modellen zelf.
### Wat kun je doen?
Sakshi Grover, senior research manager bij IDC, zegt dat traditionele SCA (Software Composition Analysis) is ontworpen om afhankelijkheidsmanifesten, bibliotheken en containerimages te inspecteren. Het is minder effectief in het identificeren van kwaadaardige laderlogica in AI-repositories. IDC's FutureScape-rapport van november 2025 voorspelt dat tegen 2027 60% van de agentische AI-systemen een bill of materials moet hebben. Dit helpt bedrijven bij te houden welke AI-artefacten ze gebruiken, waar ze vandaan komen en welke versies zijn goedgekeurd. Het is een belangrijke stap om jezelf te beschermen tegen dit soort aanvallen.