Malware vermomd als OpenAI-model op Hugging Face ontdekt
Sophie Jansen ·
Luister naar dit artikel~4 min

Een kwaadaardig Hugging Face-repositorium dat zich voordeed als een OpenAI-release verspreidde infostealer-malware naar Windows-machines. Het nep-model werd 244.000 keer gedownload voordat het werd verwijderd. Ontdek hoe de aanval werkte en wat je kunt doen om je te beschermen.
Stel je voor: je downloadt een AI-model van Hugging Face, denkend dat het van OpenAI komt. Maar in werkelijkheid installeer je stiekem malware die al je wachtwoorden steelt. Dit is precies wat er gebeurde met het kwaadaardige 'Open-OSS/privacy-filter'-repositorium.
Onderzoek van het AI-beveiligingsbedrijf HiddenLayer onthulde dat dit nepproject maar liefst 244.000 keer was gedownload voordat het werd verwijderd. Het aantal downloads kan kunstmatig zijn opgeblazen door de aanvallers om het model populairder te laten lijken. De echte omvang van de schade is dan ook onbekend.
### Hoe de aanval in elkaar zat
De aanvallers kopieerden bijna exact de originele modelkaart van OpenAI's Privacy Filter. Het enige verschil? Ze voegden een kwaadaardig `loader.py`-bestand toe. Dit bestand leek op het eerste gezicht onschuldig, maar bevatte een verborgen infectieketen.
Het script schakelde SSL-verificatie uit, decodeerde een base64-gecodeerde URL die linkte naar jsonkeeper.com, haalde een extern payload-instructie op en gaf opdrachten door aan PowerShell op Windows-machines. Door jsonkeeper.com te gebruiken als command-and-control-kanaal konden de aanvallers de payload wijzigen zonder de inhoud van het repositorium aan te passen.

### Wat de malware precies deed
De PowerShell-opdracht downloadde vervolgens een batchbestand van een domein dat door de aanvallers werd gecontroleerd. De malware bleef actief door een geplande taak te maken die leek op een legitiem Microsoft Edge-updateproces.
De uiteindelijke payload was een infostealer geschreven in Rust. Deze software had maar een doel: gevoelige gegevens stelen. Het richtte zich op:
- Chromium- en Firefox-gebaseerde browsers
- Discord-lokale opslag
- Cryptocurrency-portefeuilles
- FileZilla-configuraties
- Systeeminformatie van de host
De malware probeerde ook Windows Antimalware Scan Interface en Event Tracing uit te schakelen. Een ware digitale inbreker dus.
### Waarom AI-registries een risico vormen
Publieke AI-modelregistries worden steeds meer een risico in de softwaretoeleveringsketen. Ontwikkelaars en datawetenschappers klonen modellen rechtstreeks in bedrijfsomgevingen die toegang hebben tot broncode, cloudcredentials en interne systemen. Een gecompromitteerd modelrepositorium is dan ook meer dan een vervelend incident.
Het probleem is dat AI-repositoria vaak uitvoerbare code, installatie-instructies, afhankelijkheidsbestanden, notebooks en scripts bevatten. Het zijn juist deze randzaken die de problemen veroorzaken, niet de modellen zelf.
### Eerdere waarschuwingen en bredere campagnes
Onderzoekers hebben eerder gewaarschuwd dat kwaadaardige code verborgen kan worden in AI-modelbestanden of gerelateerde setup-scripts op Hugging Face en andere openbare registries. Eerdere gevallen gebruikten Pickle-geserialiseerde modelbestanden die de scanners van het platform omzeilden.
HiddenLayer vond nog zes andere Hugging Face-repositoria met vrijwel identieke loaderlogica die dezelfde infrastructuur deelden als de aangevallen instantie. Het gaat dus niet om een eenmalig incident, maar om een bredere campagne.
### Wat kun je doen?
Sakshi Grover, senior research manager voor cybersecuritydiensten bij IDC, benadrukt dat traditionele SCA (Software Composition Analysis) is ontworpen om afhankelijkheidsmanifests, bibliotheken en containerimages te inspecteren. Het is minder effectief bij het identificeren van kwaadaardige loaderlogica in AI-repositoria.
IDC's FutureScape-rapport van november 2025 roept op dat tegen 2027 60% van de agentische AI-systemen een 'bill of materials' moet hebben. Dit helpt bedrijven bijhouden welke AI-artefacten ze gebruiken, waar ze vandaan komen en welke versies zijn goedgekeurd.
Voor nu is het belangrijk om:
- Altijd de bron van AI-modellen te verifiëren
- Geen modellen blindelings te vertrouwen, zelfs niet van populaire platforms
- Beveiligingsscans uit te voeren op gedownloade bestanden
- Alleen modellen van officiële bronnen te gebruiken
Deze aanval laat zien dat niets vanzelfsprekend is in de wereld van AI-ontwikkeling. Blijf alert en bescherm je systemen.