Bij veel Data Science en Business Intelligence trajecten zijn er problemen met de datakwaliteit. Mensen staan aan de basis van deze data en maken bij de invoer van data regelmatig fouten. Soms zijn wel 20% van de waarden die mensen invullen onjuist. Dit percentage gaat nog verder omhoog wanneer de gebruiker de toegevoegde waarde van de registratie niet kent.

Fouten in data

Zelf kom ik regelmatig in een bouwmarkt enkele kilometers bij mijn woonplaats vandaan. Na het afronden van mijn aankoop krijg ik altijd de vraag: “wat is uw postcode”. Een vreemde vraag voor mij als klant. Ik heb net een doos schroeven en een paal gekocht, waarom heeft deze organisatie mijn postcode nodig. Veel klanten hebben hier geen zin in of geven zomaar wat cijfers en letters op.

data cloud

Navraag bij de retailer gaf mij echter een interessant nieuw inzicht. Zij willen in kaart brengen waar klanten van ‘mijn’ vestiging vandaan komen. En op basis van deze data analyseren of het rendabel is om een extra filiaal in het naastgelegen dorp te openen. Als ik dit had geweten had er direct een belang voor mij bij het geven van mijn postcode gezeten. Namelijk het minder ver rijden voor mijn benodigdheden. Maar doordat ze dit niet uitleggen aan klanten lopen ze de kans op vervuilde data in het systeem.

Bewust onjuiste data

In de praktijk zie ik ook nog een andere oorzaak voor fouten in data. Ik zie regelmatig dat gebruikers bewust onjuiste data invoeren. Niet om te saboteren of te frustreren maar juist om dingen voor elkaar te krijgen die het systeem niet goed ondersteund. Vrije tekstvelden worden gebruikt om in code informatie aan collega’s door te geven. Allemaal begrijpelijk maar uiteindelijke wel frustrerend in Data Science en Business Intelligence trajecten.

 

We were too conservative. The failure rate is closer to 85%. And the problem isn’t technology.

Problemen met de datakwaliteit zie je in ieder data gedreven traject. De trajecten duren vaak enorm lang en leveren vaak niet de resultaten die er van verwacht werden. Gartner claimde in 2016 dat 60% van alle Big Data projecten niet succesvol afrond worden. Gartner analist Nick Heudecker deed daar vorig jaar nog een schep bovenop en lanceerde de stelling dat 85% van de Big Data projecten mislukt. En het grootste probleem is volgens Nick niet de technologie die beschikbaar is! Datakwaliteit speelt een grote rol bij het mislukken van deze trajecten. Zou het niet mooi zijn wanneer de datakwaliteit 90% of zelf 100% is. Stel je eens voor dat de datakwaliteit niet wordt beïnvloed door handmatige input?

Datakwaliteit bij Process Mining

Ik heb goed nieuws! In bijna alle Process Mining trajecten kunnen we de gewenste resultaten en inzichten geven binnen de afgesproken doorlooptijd (en soms nog sneller!). Je zult je waarschijnlijk afvragen hoe dat kan, zeker wanneer je al verschillende Data Science of BI trajecten hebt meegemaakt. Het belangrijkste verschil met deze trajecten is dat we bij Process Mining niet uitgaan van data die is vastgelegd door mensen maar gebruik maken van eventlogs van de IT systemen. In principe houden alle systemen die we gebruiken een eventlog bij.

Wat is Process Mining eigenlijk? Download ons begrippenkader!

Download ons begrippenkader Process Mining en ontvang een e-book met daarin alle termen die te maken hebben met Process Mining en Data Science.

Een must have voor alle geïnteresseerden in het onderwerp Process Mining.

Datakwaliteit uit IT systemen

Je kunt dit het beste vergelijken met het onderhoud van je auto. In het onderhoudsboekje legt je garage vast welke onderhoud je auto op welk moment en bij welke kilometerstand heeft gehad. 10 jaar geleden was dit essentieel voor het onderhouden van je auto. Tegenwoordig zit er een computer in je auto die continu informatie vastlegt en voor de garage essentieel is voor de analyse van je auto. Je garage gebruikt dit om te bepalen welk onderhoud er nodig is.

Op eenzelfde manier als in je auto houden IT systemen bij welke gebruiker op welk moment welke handelingen in het IT systeem doen. De eventlogs worden gebruikt om eventuele software problemen te kunnen analyseren en op te lossen. Omdat deze informatie door het systeem zelf wordt vastgelegd is het veel betrouwbaarder dan de die door mensen in de databases is ingevoerd. De datakwaliteit van eventlogs is aanzienlijk hoger dan die van handmatige invoer. Dat zorgt er voor dat we in Process Mining trajecten op basis van eventlogs in zeer korte tijd inzicht geven en kunnen analyseren.

Helemaal geen problemen met Process Mining?

Is het dan alleen maar rozengeur en maneschijn? Kennen Process Mining trajecten helemaal geen uitdagingen met betrekking tot de datakwaliteit? Helaas niet! In het volgende blog vertel ik meer over de datakwaliteitsproblemen bij Process Mining. Daarnaast geef ik aan de hand van praktijkvoorbeelden een aantal oplossingen. Stay tuned….

Zelf aan de slag met Process Mining binnen jouw organisatie?

Schrijf je in voor de gratis Masterclass!

Roderick Schreuder

Roderick Schreuder

Roderick Schreuder is een technologie ondernemer en data science expert. Hij heeft + 20 jaar ervaring in verschillende sectoren bij organisaties zoals Philips, ING, Heerema, Achmea, NXP en Belastingdienst. Sinds 2006 is hij betrokken bij BiZZdesign en heeft zich recent gestort op de data science techniek ‘Process Mining’ bij MonkeyMining. Roderick is regelmatig gastspreker op conferenties en congressen en wordt regelmatig gevraagd om technologie inspiratiesessies voor directies en management teams te faciliteren. Daarnaast is hij verbonden aan de Hogeschool Utrecht, Avans Hogeschool en Business University Nyenrode.

Ben je overtuigd?

Begin gelijk met de MonkeyMiner!

GRATIS MASTERCLASS