De blog serie Aan de slag met Process Mining, is een serie van 7 blogs waarin ik mijn ervaringen van de afgelopen jaren op het gebied van Process Mining deel. Iedere twee weken staat er een nieuwe blog voor je klaar! Dit tweede deel zal gaan over: data kwaliteit.

De procesanalyse

Het eerste artikel uit deze serie ging over het verkrijgen van een event log in een voor jou verwerkbaar formaat. Maar dat is slechts de eerste uitdaging als je aan de slag gaat met Process Mining. Wanneer je een event log in het juiste formaat hebt, draait het om de data kwaliteit. Het is altijd spannend om over een nieuwe dataset te beschikken, omdat het vooraf niet te voorspellen is wat je gaat vinden. Alle goede data is eenvoudig te herkennen en ziet er hetzelfde uit. Alle minder goede data ziet er altijd rommelig uit. Analyse van de data is nodig om de juiste data op een juiste manier te gebruiken. Alleen dan kun je betrouwbare inzichten en resultaten boeken.

Process mining

Trainingen Process Mining en Procesanalyse

Tijdens onze Data Science en Process Mining trainingen leer je hoe je kunt omgaan met data kwaliteit en hoe je dit kunt verbeteren.

Data kwaliteit

Een eerste controle van de dataset brengt vaak problemen met de data kwaliteit aan het licht. We zien negatieve doorlooptijden, tijdnotaties in de toekomst terwijl deze in het verleden zouden moeten liggen of data die ontbreekt. Maar we moeten voorzichtig zijn met het verwijderen van data die niet aan onze verwachtingen voldoet.  

Er is namelijk een wijze waarop een systeem gebruikt zou moeten worden versus een wijze waarop een systeem daadwerkelijk wordt gebruikt. Soms is het technisch niet mogelijk om een ​​COTS-applicatie (Commercial Off The Shelf software) aan te passen aan de vereisten van de eindgebruiker. Of het aanbrengen van wijzigingen in de software is erg duur. Maar mensen zijn creatief, dus er wordt vaak een weg gevonden door work-arounds te creëren. Vrije indelingsvelden voor opmerkingen worden soms gebruikt voor het invoeren van extra variabelen. Of datums in de toekomst worden gebruikt om de status van een case te beïnvloeden. Dit kan resulteren in data die eerst warrig lijkt te zijn, maar die logisch te verklaren is na een gesprek met de eindgebruikers.  

Dus nadat je de onbewerkte data hebt getransformeerd in een event log, kun je niet zomaar je kantoor binnenlopen, de deur sluiten, beginnen met analyseren en de resultaten presenteren wanneer je klaar bent. Je moet nauw samenwerken met de eigenaar van de data om inzicht te krijgen. Bij voorkeur worden de mensen betrokken, die de data daadwerkelijk genereren.

 

Verbeteren data kwaliteit

Onderzoek op het gebied van Process Mining richt zich vooral op nieuwe algoritmen, wat natuurlijk goed is. Maar deze algoritmen zijn niet het belangrijkste in de praktijk.  

Vaak vormt een direct aansluitende grafiek of een gestippelde grafiek een zeer goede visualisatie om initieel inzicht te krijgen in het proces. Deze visualisaties tonen alleen de data, zonder geavanceerde algoritmen te gebruiken. Desalniettemin kunnen ze enorme waarde bieden, wanneer je je inspant om de juiste data te tonen en de juiste filters toe te passen. Nauw samenwerken met de eigenaar van de data om echt alle ins en outs van de data te begrijpen is belangrijk. Het betaalt zich vaak beter uit dan alleen het toepassen van de meest geavanceerde technieken.  

Veel organisaties hebben zoveel problemen met de kwaliteit van de data, dat het analyseren van de eerste versie van het event log te vergelijken is met jezelf aankleden in het donker. Ook dat is vaak een onmogelijke opdracht. Het resultaat is vervolgens dat je eindigt met twee verschillende sokken aan en dat je shirt achterstevoren zit. Daarom is het belangrijk om eerst het licht aan te doen voordat je je aankleed. Door met mensen te praten krijg je inzicht in de data. Maak korte iteraties en toon veel tussenresultaten op deze manier probeer je samen met de domeinexpert te ontdekken wat je ziet en waarom je ziet wat je ziet.

Process mining

Zelf aan de slag met het verbeteren van jouw data kwaliteit!

Om je op weg te helpen met verbeteren van jouw data kwaliteit hebben wij onze best practices op het gebied van data preparatie verzameld in een handige gratis download.

Via onderstaande button ontvang je direct een exemplaar!

Zelf aan de slag met Process Mining binnen jouw organisatie?

Schrijf je in voor de gratis Masterclass!

Linda Terlouw

Linda Terlouw

Dr. ir. Linda Terlouw holds both an MSc in Computer Science and an Msc in Business Information from the University of Twente. Her PhD research focused on modularization of organizations and IT systems using Enterprise Ontology and Service-Oriented Architecture. At the moment she is mainly working on data science (e.g. forecasting), data visualization and process mining (www.monkeymining.com). Before she started her own company, Icris, she worked for IBM and Ordina (a large Dutch consulting firm). Clients she has been working for include several Dutch water suppliers, a large municipality, several factories, and the Ministry of Defense. She is lector (professor) at the Avans+ University of Applied Sciences and teaches at Nyenrode Business University.

Ben je overtuigd?

Begin gelijk met de MonkeyMiner!

GRATIS MASTERCLASS