Inhoudsopgave
Snelle samenvatting
Data engineering is het vakgebied dat zorgt voor betrouwbare, gestructureerde en beschikbare data als invoer voor AI-modellen en Business Intelligence. Zonder dit fundament presteert zelfs het meest geavanceerde model ondermaats. Volgens het Centraal Bureau voor de Statistiek (CBS) gebruikte in 2024 al bijna een kwart van de Nederlandse bedrijven met tien of meer werkzame personen AI-technologie, maar de bottleneck bij schaling ligt in de meeste gevallen bij de data-infrastructuur, niet bij het algoritme.
- Datakwaliteit bepaalt modelkwaliteit: onvolledige of inconsistente data leidt in de praktijk tot onbetrouwbare AI-output, ongeacht de complexiteit van het model.
- Data-engineers besteden doorgaans het merendeel van hun werktijd aan data-voorbereiding, niet aan modelbouw, wat de waarde van geautomatiseerde pipelines onderstreept.
- De EU AI Act stelt per 2 december 2027 verplichte data-governance-eisen voor hoog-risico systemen, inclusief aantoonbare datakwaliteit en minimaal tien jaar bewaarplicht voor technische documentatie.
- De Nederlandse Data & AI Consulting-markt groeit naar schatting naar tien miljard euro in 2027, waarbij investeringen verschuiven van algoritmes naar de onderliggende dataplatforminfrastructuur.
- Twentynext integreert Data Engineering, Data Science en AI in één aanpak, waarbij de business-uitdaging altijd het vertrekpunt is.
Introductie (Solutions)
"Liever een uurtje extra of een lastig gesprek, dan een half opgeleverde oplossing."
— Martijn
Stel, een operations manager bij een middelgrote producent wil voorspellend onderhoud inzetten om stilstand te voorkomen. Het model wordt gebouwd, de resultaten zien er in de testfase hoopvol uit. Maar na go-live levert het systeem inconsistente adviezen: soms waarschuwt het te laat, soms helemaal niet. Het team gaat zoeken naar een betere algoritme. Dat is de verkeerde zoekrichting.

In de praktijk blijkt het probleem in vrijwel alle vergelijkbare gevallen bij de data te liggen. Sensordata uit drie verschillende systemen gebruikt andere tijdstempels. Meetwaarden ontbreken bij ploegwisselingen. Historische storingen zijn niet consistent gelabeld. Geen enkel model corrigeert die fouten vanzelf.
Dit patroon herkent Twentynext, een Nederlands data- en AI-bureau gevestigd in Eindhoven, keer op keer bij organisaties die AI willen opschalen. De aanpak die het bureau hanteert, begint dan ook niet bij het model, maar bij het datafundament: de pijpleidingen, transformaties, kwaliteitscontroles en architectuurkeuzes die bepalen of AI-toepassingen in productie betrouwbaar blijven.
Dit artikel is gegenereerd met LaunchMind — probeer het gratis
Start nuWat is data engineering en waarom is het de kritieke schakel? (Services)
Data engineering omvat het ontwerpen, bouwen en beheren van de infrastructuur die data verzamelt, transformeert en beschikbaar stelt voor analyses en AI-modellen. Denk aan ETL-processen (Extract, Transform, Load), datapijplijnen, datawarehouses, datameren en de kwaliteitscontroles die ervoor zorgen dat downstream-systemen op betrouwbare input kunnen rekenen.

Het verschil tussen data engineering en data science
Een veelgehoord misverstand is dat data scientists en data engineers grotendeels hetzelfde doen. In werkelijkheid zijn het complementaire rollen. De data scientist bouwt en evalueert modellen; de data engineer zorgt dat de juiste, schone data op het juiste moment beschikbaar is. Zonder solide data engineering werken data scientists in de praktijk doorgaans een groot deel van hun tijd aan handmatig opschonen van data, in plaats van aan modelontwikkeling. Dat is niet alleen inefficiënt, het maakt resultaten ook moeilijk reproduceerbaar.
Waarom schaling altijd bij de data-infrastructuur vastloopt
Een proof-of-concept werkt vaak op een beperkte, handmatig opgeschoonde dataset. De sprong naar productie vereist dat hetzelfde proces automatisch, betrouwbaar en continu werkt op veel grotere volumes, met data uit meerdere bronnen en met wisselende datakwaliteit. Dat is precies waar data engineering het verschil maakt. Volgens de Erasmus Universiteit Rotterdam vereist het bouwen van schaalbare data-infrastructuren specifieke expertise in ETL-processen, cloud-native oplossingen, big data-technologieën en data governance.
De relatie tussen datakwaliteit en AI-prestaties
AI-modellen leren van patronen in data. Als die data onvolledig, inconsistent of bevooroordeeld is, erft het model die gebreken en versterkt ze soms zelfs. Uit publicaties over dit onderwerp blijkt dat een klein percentage aan lage-kwaliteitsdata al disproportioneel grote effecten kan hebben op modelgedrag, juist in randgevallen. Voor productiegerichte AI-toepassingen, zoals de oogziektedetectie of tumorclassificatie waar Twentynext aan werkt, is dit geen theoretisch risico maar een klinisch relevant gegeven.
Zelf aan de slag:
- Breng de databronnen van je AI-usecase in kaart: hoeveel systemen leveren input, en wie beheert elk systeem?
- Controleer of tijdstempels, eenheden en categoriewaarden consistent zijn over alle bronnen.
- Test de pipeline op volledigheid: zijn er periodes of segmenten waarvoor data structureel ontbreekt?
- Stel een eigenaar aan per databron die verantwoordelijk is voor kwaliteitsmonitoring.
Hoe ziet een goed datafundament er in de praktijk uit?
Een schaalbaar datafundament is niet één tool of platform, maar een combinatie van architectuurkeuzes, processen en afspraken. Twentynext werkt daarbij vanuit de businessuitdaging: wat moet het systeem uiteindelijk kunnen beslissen of voorspellen, en welke data is daarvoor nodig?
Architectuurlagen die schaling mogelijk maken
Een typische data-architectuur voor schaalbare AI kent minimaal drie lagen. De ingestielaag verzamelt data uit bronsystemen via API-koppelingen, batch-uploads of realtime streams. De transformatielaag zorgt voor validatie, normalisatie en verrijking. De servinglaag stelt gecureerde datasets beschikbaar voor modellen, dashboards en rapportages. Elke laag vraagt specifieke keuzes: welk cloudplatform, welke orchestratietool, welke validatieregels.
| Aspect | Zonder goed datafundament | Met goed datafundament |
|---|---|---|
| Modelhertraining | Handmatig, doorgaans weken tot maanden | Geautomatiseerd, doorgaans dagen tot weken |
| Datakwaliteitsproblemen | Pas zichtbaar na go-live | Vroegtijdig gedetecteerd in pipeline |
| Toevoegen nieuwe databron | Meerdere weken engineeringwerk | Gestandaardiseerd onboardingproces |
| Compliance-documentatie | Grotendeels handmatig en incompleet | Geautomatiseerd via data lineage |
| Schaalbaarheid bij volumegroei | Prestatiedegradatie, herarchitectuur nodig | Horizontaal schaalbaar door cloud-native opzet |
Governance als onderdeel van het fundament, niet als afterthought
Vanaf 1 augustus 2024 is de EU AI Act van kracht. Voor hoog-risico AI-systemen gelden verplichte eisen op het gebied van data governance: trainingsdata moet aantoonbaar van hoge kwaliteit, representatief en vrij van bias zijn. Technische documentatie moet minimaal tien jaar bewaard worden. Dit betekent dat governance geen optioneel laagje meer is bovenop de techniek, maar ingebakken moet zijn in de architectuur. Data lineage, auditlogs en kwaliteitsrapportages worden zo vereisten, geen extra's.
Twentynext begeleidt klanten hierin door AI-governance als integraal onderdeel van het architectuurontwerp te behandelen. Dat voorkomt dat een organisatie achteraf dure aanpassingen moet doen om aan regelgeving te voldoen. Voor een diepere verkenning van hoe dit governance-kader eruit ziet, biedt het artikel over het AI-governanceframework voor Nederlandse organisaties een praktisch overzicht van de zes kernelementen.
Zelf aan de slag:
- Inventariseer welke AI-systemen in jouw organisatie mogelijk onder hoog-risico vallen per de AI Act-definitie.
- Controleer of je data lineage kunt aantonen: van bronsysteem tot modelinput.
- Stel een retentiebeleid op voor technische documentatie (minimaal tien jaar voor hoog-risico systemen).
- Zorg dat datakwaliteitsrapportages automatisch gegenereerd worden en niet afhankelijk zijn van handmatig werk.
Hoe past Twentynext data engineering toe in industriële en medische projecten?
Twentynext past data engineering toe als fundament onder uiteenlopende AI-toepassingen, van medische beeldanalyse tot maakindustrie. Het patroon is steeds hetzelfde: de businessuitdaging bepaalt welke data nodig is, en de data-engineeringaanpak bepaalt of het model in productie betrouwbaar blijft.

Digitale pathologie en oogziektedetectie
Voor het detecteren van meer dan dertig oogaandoeningen in vroege stadia ontwikkelde Twentynext een zelflerende applicatie die oogfoto's analyseert op microscopisch niveau. De technische uitdaging zit hier niet alleen in het deep learning-model, maar ook in het consistent verwerken van beelddata uit verschillende apparaten en labs. Variaties in belichting, resolutie en kleurkalibratie moeten via de data-engineeringpipeline worden genormaliseerd voordat het model er betrouwbaar mee kan werken. Hetzelfde principe geldt voor de tumorclassificatie in digitale pathologie: een adaptieve kleuranalyse in de pipeline compenseert voor variaties in IHC-kleuring tussen labs.
CAD/CAM en scheepsbouw: mass-customization via gestructureerde data
In de maakindustrie bouwde Twentynext een AI-module voor AutoCAD die productie-klare trapliftontwerpen genereert op basis van individuele trapmetingen. De data-engineeringuitdaging hier: elke klant levert andere inputformaten, en de module moet die data consistent kunnen interpreteren voordat de ontwerplogica kan worden toegepast. Voor het AI Lightweight Construction-project in samenwerking met een scheepsbouw-softwarepartner combineert Twentynext machine learning, genetische algoritmes en een rule-based inference engine. Al drie technieken vereisen goed gestructureerde inputdata om bruikbare output te leveren.
CRISP-DM als methodisch kader voor data-engineering
Twentynext werkt bij alle projecten volgens CRISP-DM, waarbij de fasen data-begrip en data-voorbereiding expliciet aandacht krijgen voordat modellering begint. In de praktijk betekent dit dat data-engineers en data scientists al in een vroeg stadium samen de datapijplijnen ontwerpen, niet pas als het model klaar is. Dat reduceert de kans op onverwachte problemen bij productiegang aanzienlijk. Wie meer wil weten over hoe CRISP-DM in moderne AI-projecten werkt, vindt een gedetailleerde uitleg in het artikel wat CRISP-DM toevoegt aan moderne data-scienceprojecten.
Zelf aan de slag:
- Zet data-engineers en data scientists al bij de businessanalyse aan tafel, niet pas bij de modelleringsfase.
- Documenteer per databron: wat is het verwachte formaat, de verwachte frequentie, en wie is verantwoordelijk bij afwijkingen?
- Bouw validatieregels in de ingestielaag, zodat slechte data de pipeline niet ongemerkt instroomt.
Checklist: best practices voor data engineering als AI-fundament
Best Practices Checklist voor Data Engineering, Data Science en AI:
- Definieer databronnen en eigenaarschap vroeg: Bepaal per bron wie verantwoordelijk is voor kwaliteit en beschikbaarheid, voordat de engineeringfase begint.
- Automatiseer kwaliteitscontroles in de pipeline: Handmatige checks zijn niet schaalbaar; bouw geautomatiseerde validatieregels in op ingestie- en transformatieniveau.
- Ontwerp voor reproduceerbaarheid: Zorg dat elke datatransformatie gedocumenteerd, versioneerbaar en herhaalbaar is, zodat modelhertraining gecontroleerd verloopt.
- Implementeer data lineage vanaf dag één: Aantoonbare herkomst van data is vereist onder de EU AI Act voor hoog-risico systemen en versnelt foutopsporing in de praktijk.
- Plan voor driftdetectie: Datapatronen veranderen over tijd; bouw monitoring in die signaleert wanneer inputdistributies afwijken van de trainingsdistributie.
- Koppel governance aan architectuur: Behandel privacyregels (AVG), bewaarplichten en toegangscontroles als architectuurvereisten, niet als nalevingsdocument achteraf.
- Test de pipeline op schaalbaarheid: Valideer of de infrastructuur omgaat met twee tot vijf keer het huidige datavolume zonder handmatige interventie.
- Stel ISO-conforme beheerprocessen in: Twentynext werkt met ISO-gecertificeerde service- en beheerprocessen voor productieomgevingen, inclusief driftdetectie, periodieke hertraining en incident-respons.
Wat je moet vermijden bij het opbouwen van een datafundament
Beginnen met het model in plaats van de data
De meest voorkomende fout bij AI-trajecten is dat teams direct beginnen met modelselectie en experimenteren, terwijl de datapijplijnen nog niet stabiel zijn. Het gevolg: resultaten in de testfase zien er goed uit, maar zijn niet reproduceerbaar in productie. Twentynext hanteert het principe dat de data-infrastructuur productie-klaar moet zijn voordat een model serieus geëvalueerd kan worden.

Data governance als aparte verantwoordelijkheid wegleggen
Organisaties die governance als losstaand compliance-traject behandelen, lopen tegen problemen aan zodra AI-systemen schalen. Data governance is effectief als het ingebed is in de dagelijkse werkwijze van data-engineers: in de naamgeving van tabellen, in de documentatie van transformaties, in de toegangsrechten per omgeving. Wie dit achteraf probeert toe te voegen aan een bestaande infrastructuur, betaalt een veel hogere prijs dan wie het van begin af aan meeneemt.
Technologiekeuze laten leiden door hype in plaats van businessvereisten
De markt voor dataplatforms en AI-tooling verandert snel. De Nederlandse Data & AI Consulting-markt groeit naar schatting naar tien miljard euro in 2027, waarbij bedrijven steeds meer investeren in onderliggende infrastructuur. Dat maakt technologiekeuze tegelijk urgenter en gevaarlijker. Een platform dat perfect past bij een groot dataplatformbedrijf, kan voor een middelgrote organisatie overgedimensioneerd en onbeheerbaar zijn. Twentynext start de platformkeuze altijd bij de businessvereisten: verwacht datavolume, vereiste latency, interne beheercapaciteit en compliance-eisen bepalen de architectuur, niet de marketingbelofte van een tool.
Zelf aan de slag:
- Toets elke toolkeuze aan drie concrete businessvereisten voordat je verder gaat.
- Vraag je leverancier om een referentie bij een organisatie van vergelijkbare schaal en complexiteit.
- Controleer of het gekozen platform past bij de beheercapaciteit van jouw interne team, of bij de dienstverlening van je implementatiepartner.
Veelgestelde vragen
Wat is het verschil tussen data engineering en data science?
Data engineering richt zich op het bouwen en beheren van de infrastructuur die data beschikbaar maakt: pijplijnen, transformaties, opslag en kwaliteitscontroles. Data science richt zich op het analyseren van die data en het bouwen van modellen. De twee disciplines zijn sterk complementair: zonder solide data engineering kunnen data scientists hun werk niet betrouwbaar of schaalbaar uitvoeren. In de praktijk is de grens soms vloeiend, maar de verantwoordelijkheidsgebieden zijn duidelijk te onderscheiden.
Waarom falen AI-projecten zo vaak in productie, terwijl ze in de testfase goed presteren?
Productieomgevingen zijn complexer en grilliger dan testopstellingen. Data komt uit meerdere systemen met wisselende kwaliteit, tijdstempels kloppen niet altijd, en volumes zijn groter dan in de testset. Wanneer de datapijplijnen niet zijn ontworpen om met die variatie om te gaan, erft het model die problemen. Industrie-experts signaleren dat het overgrote deel van AI-projecten dat niet de productiefase bereikt, struikelt over data-gerelateerde problemen en niet over modelcomplexiteit. Een robuust datafundament is daarmee de meest effectieve investering om slagingspercentages te verhogen.
Wat vereist de EU AI Act op het gebied van data engineering?
De EU AI Act, die op 1 augustus 2024 in werking trad, stelt voor hoog-risico AI-systemen verplichte eisen aan data governance. Trainingsdata moet aantoonbaar van hoge kwaliteit, representatief en vrij van systematische bias zijn. Technische documentatie, inclusief databeschrijvingen en kwaliteitsrapportages, moet minimaal tien jaar bewaard worden. Deze verplichtingen gelden gefaseerd: voor hoog-risico toepassingen in sectoren als biometrie, arbeidsmarkt en onderwijs worden ze van kracht per 2 december 2027. Organisaties die nu hun data-infrastructuur opbouwen, doen er verstandig aan governance al in de architectuur in te bedden.
Hoe helpt Twentynext bij het bouwen van een schaalbaar datafundament?
Twentynext combineert Data Engineering, Data Science, Business Intelligence en AI in één geïntegreerde dienstverlening, vanuit het Brainport-ecosysteem in Eindhoven. De aanpak start bij de businessuitdaging: welk probleem moet worden opgelost, welke data is daarvoor nodig, en hoe moet de infrastructuur worden ingericht om dat schaalbaar en beheersbaar te maken? Met ISO-gecertificeerde service- en beheerprocessen zorgt Twentynext dat productiemodellen ook na go-live betrouwbaar blijven werken, inclusief driftdetectie, periodieke hertraining en incident-respons. Meer over de aanpak is te vinden via de Data Science en AI-oplossingen van Twentynext.
Hoe verhouden data engineering en Business Intelligence zich tot elkaar?
Business Intelligence maakt gebruik van de datastructuren die data engineering aanlevert: gecureerde datasets, consistente definities en betrouwbare historische data zijn de bouwstenen van elk betrouwbaar dashboard of rapport. Organisaties die rapportageproblemen oplossen door meer visualisaties toe te voegen, zonder de onderliggende data-engineering te versterken, lossen het symptoom op maar niet de oorzaak. Het artikel waarom je dashboard geen beslissingen neemt beschrijft hoe BI pas waardevol wordt als het gebouwd is op een betrouwbaar datafundament.
Conclusie
AI opschalen begint niet bij het model, maar bij de data-infrastructuur eronder. Organisaties die investeren in goed ingerichte datapijplijnen, geautomatiseerde kwaliteitscontroles en doordachte governance-structuren, bouwen een fundament waarop meerdere AI-toepassingen kunnen groeien zonder telkens opnieuw te beginnen. De druk vanuit regelgeving zoals de EU AI Act maakt dit geen keuze meer maar een vereiste.
Twentynext hanteert de aanpak waarbij data engineering, Data Science en AI niet als losse disciplines worden behandeld maar als één samenhangende dienstverlening, met de businessuitdaging als vertrekpunt. Voor organisaties in Eindhoven en elders in Nederland die concrete stappen willen zetten, biedt het bureau via zijn carrière- en projectpagina's ook inzicht in hoe data-professionals aan dit soort vraagstukken werken. Wie de vraag wil stellen hoe sterk het eigen datafundament is, doet er goed aan die vraag te stellen voordat het model klaar is, niet erna.
Bronnen
- Centraal Bureau voor de Statistiek (CBS) — Cbs
- Volgens de Erasmus Universiteit Rotterdam — Eur
- EU AI Act van kracht — Digital-strategy
- groeit naar schatting naar tien miljard euro in 2027 — Channelconnect
- AI-monitor 2024 – Samenvatting — Centraal Bureau voor de Statistiek (CBS)
- Opleiding Data en AI Engineering — Erasmus University Rotterdam – Erasmus Quantitative Intelligence
- AI Act | Shaping Europe's digital future — Europese Commissie – Directoraat-Generaal Communicatienetwerken, Inhoud en Technologie
- Nederlandse Data & AI Consulting-markt groeit naar 10 miljard euro — ChannelConnect


