De blogserie Aan de slag met Process Mining, is een serie van 7 blogs waarin ik mijn ervaringen van de afgelopen jaren op het gebied van Process Mining deel. Iedere week staat er een nieuwe blog voor je klaar! Om te beginnen zal dit eerste deel starten met Process Mining gaan over: het event log.
Event log in XES formaat
De Process Mining community heeft XES voorgesteld als een standaard voor het opslaan en uitwisselen van event logs. Op dit moment is het een XML-standaard en waarschijnlijk komt er een JSON-versie beschikbaar in de nabije toekomst. Deze poging tot standaardisatie is natuurlijk volkomen logisch en valide. De mogelijkheid om event logs uit te wisselen tussen verschillende tools is natuurlijk fantastisch, afgezet tegen een vooruitzicht van allerlei leveranciers specifieke formaten.
Ik ben nu echter een aantal jaar bezig met Process Mining en heb veel projecten gedaan voor verschillende klanten, bijvoorbeeld in de gezondheidszorg, gemeenten, waterleveranciers en industrie. Niet één keer heb ik een event log in XES-formaat mogen ontvangen (en ik verwachtte dat ook niet!). Met heel veel geluk krijg ik een event log aangeleverd in CSV-indeling of een relationele databasetabel.

Trainingen Process Mining en Procesanalyse
Tijdens onze Data Science en Process Mining trainingen is er aandacht voor data preparatie en event logs. Je leert wat er nodig is om jouw event log samen te stellen en deze zo effectief mogelijk in te zetten.
Indeling van data
Met het CSV-formaat komen vaak enkele fouten mee, zoals een puntkomma-teken dat wordt gebruikt als scheidingsteken maar ook binnen een tekstveld, waardoor het CSV-bestand corrupt wordt. Het is ook mogelijk dat Excel is gebruikt om het CSV-bestand te maken of te bewerken. Dit leidt vaak tot rommelige datumvelden, vanwege verschillen in Nederlandse en Engelse opmaak van data.
Het is gebruikelijk dat in een event log voor Process Mining de data in een rij indeling wordt weergegeven. Elk afzonderlijk event resulteert in één rij. Echter rangschikken veel systemen de gegevens in een op kolommen gebaseerde indeling. Zo kan een bestelling bijvoorbeeld verschillende kolommen bevatten, zoals ‘aanmaakdatum’, ‘datum van levering van goederen’ en ‘factuurdatum’. In dat geval moeten de kolommen worden omgezet naar events in rijen. Af en toe is er sprake van een mix van de rij georiënteerde en kolom georiënteerde indeling. Dan moet de data getransformeerd worden.
Meestal zijn de kolommen ook niet afkomstig uit één tabel en moeten gegevens uit verschillende tabellen worden samengevoegd. Consistentie van data wordt niet altijd afgedwongen, dus wordt er frequent verwezen naar data die niet langer bestaat. Het is over het algemeen niet het uitgangspunt, maar soms moet je genoegen nemen met de data die eenvoudig en snel voor handen is. Oudere systemen hebben meestal ook ruimtebeperkingen binnen velden, waardoor er afkortingen worden gebruikt die niet altijd in het systeem zelf worden beschreven.
Lees ook: Data kwaliteit – Starten met Process Mining (2/7)
R en Phyton
Veel adviesorganisaties hebben interesse in Process Mining en daar is ook zeker aanleiding voor. Process Mining kan deze organisaties namelijk de inzichten verschaffen in bedrijfsprocessen, die ze bijvoorbeeld weer kunnen inzetten voor het ontdekken van verspilling bij Lean Six Sigma.
Veel consultants ontberen echter de vaardigheden om zorgvuldig een event log samen te stellen. Dit is op zich niet vreemd, omdat het geen onderdeel uitmaakt van het takenpakket en hun core competence. Niets dus om je voor te schamen 😉. De consultants focussen zich tenslotte hoofdzakelijk op het bewerkstelligen van veranderingen binnen organisaties. Vaak wordt er nog wel een poging ondernomen om een event log samen te stellen in Excel, maar dit werkt alleen voor kleine hoeveelheden data en relatief simpele transformaties.
Het punt dat ik hierbij echter wil maken is dat een event log niet zomaar op een presenteerblaadje wordt aangereikt. Voor het samenstellen van goede event logs heb je in principe een Process Mining ‘CSI-team’ nodig. Dit team moet bestaan uit een mix van experts, die jouw data in de diepte kunnen doorgronden (bij voorkeur mensen die de data maken) en mensen met scripting vaardigheden. De scripting kan worden uitgevoerd met algemene Data Science programmeertalen zoals R of Python, maar op zich zal iedere programmeertaal voldoen. Het beschikken over de benodigde programmeervaardigheden en expertise op het gebied van data is dan ook onontbeerlijk voor het vakkundig samenstellen van een event log!

Event log in de praktijk
Het ontdekken van een event log kan ingewikkeld zijn. Soms is het wel voor de hand liggend en is het gebaseerd op iets triviaals als een ticketnummer of een bestelnummer. Maar soms kost het toch meer inspanning.
Ik kreeg bijvoorbeeld ooit een event log gebaseerd op Enterprise Ontology, een methodiek van procesmodellering uitgevonden door prof. Jan Dietz (mijn PhD begeleider). Dit is een methodiek voor het ontwerpen en inrichten van organisaties en werkt in dit voorbeeld met zakelijke transacties. De zakelijke transacties bestaan uit coördinatie- en productiehandelingen die in XML-berichten zijn geïmplementeerd. Deze berichten hadden echter alleen een relatie met het voorgaande bericht en niet met een Case-ID waarmee geïdentificeerd kon worden tot welke case het behoorde. Met een recursief algoritme moesten we vanuit de verwijzingen naar de voorgaande berichten de relatie leggen met het uiteindelijke Case-ID. Toen hebben we zelf alsnog een Case-ID gegenereerd. Dit soort transformatie kan niet worden gedaan met Excel door iemand die niet weet hoe het script moet worden geschreven.
Het spijt me voor deze conclusie, maar Process Mining is niet alleen maar het importeren van gegevens in een tool en vervolgens op een knop drukken. Er gaat echt wat werk zitten in het samenstellen van je event log.
Zelf aan de slag met een event log
Om je op weg te helpen met het prepareren van uw event log hebben we onze best practices op het gebied van data preparatie verzameld in een handige gratis download.
Via onderstaande button ontvang je direct een exemplaar!
Zelf aan de slag met Process Mining binnen jouw organisatie?
Schrijf je in voor de gratis Masterclass!

Linda Terlouw
Dr. ir. Linda Terlouw holds both an MSc in Computer Science and an Msc in Business Information from the University of Twente. Her PhD research focused on modularization of organizations and IT systems using Enterprise Ontology and Service-Oriented Architecture. At the moment she is mainly working on data science (e.g. forecasting), data visualization and process mining (www.monkeymining.com). Before she started her own company, Icris, she worked for IBM and Ordina (a large Dutch consulting firm). Clients she has been working for include several Dutch water suppliers, a large municipality, several factories, and the Ministry of Defense. She is lector (professor) at the Avans+ University of Applied Sciences and teaches at Nyenrode Business University.
Anderen bekeken ook:
Dataset – Starten met Process Mining (4/7)
In de eerste artikelen over het event log, data kwaliteit en procesvisualisatie wil ik nu aandacht besteden aan Process Mining met bestaande bedrijfsprocessen en de bijbehorende dataset. Hoe werk ik met een dataset? Een relatief eenvoudig vertrekpunt voor het...
Procesvisualisatie – Starten met Process Mining (3/7)
De blog serie Aan de slag met Process Mining, is een serie van 7 blogs waarin ik mijn ervaringen van de afgelopen jaren op het gebied van Process Mining deel. Iedere week staat er een nieuwe blog voor je klaar! Dit derde deel zal gaan over: procesvisualisatie. In...
Data kwaliteit – Starten met Process Mining (2/7)
De blog serie "Aan de slag met Process Mining", is een serie van 7 blogs waarin ik mijn ervaringen van de afgelopen jaren op het gebied van Process Mining met je deel. Iedere week staat er een nieuwe blog voor je klaar! Dit tweede deel zal gaan over: data kwaliteit....
Recente reacties