AI bouwen met imperfecte data: mythes en realiteit
Sophie Jansen ·
Luister naar dit artikel~4 min

Joe Rose van JBS Dev ontkracht de mythe dat AI alleen werkt met perfecte data. Ontdek hoe je met imperfecte data toch resultaten boekt, waarom de laatste mijl draait om kosten en draagbaarheid, en waarom je SaaS kunt vervangen door zelfbouw in de cloud.
Joe Rose, president van strategisch technologiebedrijf JBS Dev, wil graag een hardnekkige mythe over generatieve en agentische AI-systemen ontkrachten. 'Het is een veelvoorkomend misverstand dat je data perfect moet zijn voordat je dit soort workloads kunt uitvoeren,' legt hij uit.
Volgens een recent artikel in AI Fieldbook suggereren leveranciers en consultants – niet verrassend – dat je enorme datalakes en meerjarige datatransformatieprogramma's nodig hebt. Directeuren krabben zich dan ook vertwijfeld achter de oren. De realiteit is iets genuanceerder. 'De tools zijn nog nooit zo goed geweest om met slechte kwaliteit data om te gaan,' zegt Rose. 'Het is bijna opmerkelijk wat een LLM kan begrijpen van een half ingetypte prompt.'
### Waarom imperfecte data niet het einde van de wereld is
Het klinkt logisch: als je zo'n krachtige tool hebt, kun je die in je voordeel gebruiken – mits je de juiste waarborgen instelt. De inherente onvoorspelbaarheid van modellen betekent dat je moet kunnen omgaan met foutieve output, en daar komt de mens in de loop om de hoek kijken. Voor tekstuele of categorische data is er veerkracht ingebouwd. 'Mensen zijn gewend aan: we bouwen het, het werkt, we vergeten het,' zegt Rose. 'Maar zo werken deze systemen niet.'
Neem een voorbeeld uit de medische sector: een klant moest overstappen naar een nieuw facturatie- en reconciliatiesysteem. De dossiers waren een rommeltje – sommige in PDF, andere als afbeelding; de procedure stond soms onder de naam van de arts, de arts stond weer bij de patiënt, enzovoort. Gen AI kon met een simpele prompt de schone data eruit halen: van OCR voor afbeeldingen tot tekstextractie voor PDF's. Daarna werden meer agentische benaderingen ingezet, zoals het vergelijken van een klantrecord met een verzekeringscontract om te controleren of het juiste tarief werd berekend.
'Je begint verschillende use cases op elkaar te stapelen,' zegt Rose. 'Dat betekent niet dat het alles goed doet – je hebt nog steeds een mens in de loop nodig. Maar wat je wilt, is zeggen: we begonnen met 20% automatisering, daarna 40%, dan 60%, 80% – en dat in de loop van de tijd laten groeien.'

### De verschuiving naar kosten en draagbaarheid
Rose verwacht dat toekomstige discussies over AI-modellen vooral gaan over kosten en draagbaarheid. 'Ik denk dat je een verschuiving gaat zien van radicale sprongen in modelcapaciteit naar de vraag: hoe maken we de kosten duurzamer, zodat we niet in hetzelfde tempo datacenters hoeven te bouwen?'
'De laatste mijl is: hoe krijgen we deze dingen op een laptop of telefoon te draaien in plaats van in een datacenter? De modellen zijn getraind op een enorme hoeveelheid data – in feite elke pagina op internet en nog wat. Er is niet echt een enorme berg nieuwe data die nog niet in de modellen zit en die tot een doorbraak zal leiden.'
### Zelf doen in plaats van SaaS kopen
Op de AI & Big Data Expo, waar JBS Dev deelneemt, kijkt Rose uit naar de gesprekken – en hij heeft nog een controversiële mening: stop met het kopen van SaaS-licenties als je het zelf kunt doen. 'Het is niet zo moeilijk als het klinkt,' zegt hij. 'Bijna iedereen heeft wel een cloud-omgeving, en daar zou ik beginnen. De cloudtools – vooral van de grote drie – hebben alles wat je nodig hebt om morgen agentische workloads te implementeren, zonder nieuwe softwarelicenties of training.'
### Praktische tips om te starten
- Begin met een kleine pilot: kies een eenvoudige use case met imperfecte data.
- Gebruik bestaande cloudtools van AWS, Azure of Google Cloud.
- Zet een menselijke controleur in voor de eerste output.
- Meet de automatiseringsgraad en verhoog die stapsgewijs.
Zodra je deze basis hebt, staat JBS Dev klaar voor de volgende stappen van de reis.