We hebben het regelmatig over slimme algoritmes en AI. Vaak horen we in deze context de term ‘big data’. Persoonlijk ben ik niet zo gelukkig met deze term. Door deze term te gebruiken lijkt het alsof we alleen slimme dingen kunnen doen met data als we een enorme berg hebben. Uiteraard ben ik me bewust dat big data vaak wordt gedefinieerd door de 3V’s, waarvan volume er slechts één is. De andere twee zijn velocity (data verandert snel en moet snel geüpdate kunnen worden) en variety (data kent veel verschillende vormen)
Big data slim inzetten
Zelf spreek ik altijd liever over data science als we het hebben over slimme dingen doen met data zonder we het echt AI kunnen noemen. Bij data science draait het om het krijgen van nieuwe inzichten door het gebruik van data en het leren op basis van data. Hiervoor worden verschillende wiskundige technieken gebruikt, zoals decision forests, neurale netwerken en tijdreeksanalyses. Bij big data denkt men vooral aan enorme datasets waarin zonder voorafgaande vragen interessante patronen ontdekt worden. In de praktijk gaat dit allemaal niet zo makkelijk en springen patronen niet uit een dataset als een konijn uit een hoge hoed. Daarnaast ligt er altijd het risico op de loer onzinverbanden te ontdekken door toeval. Zo zijn er bijvoorbeeld duidelijke patronen te ontdekken in de datasets van het Centers for Disease Control Prevention en de Internet Movie Database.

Hopelijk gaat Nicolas Cage snel met pensioen zodat we weer veilig kunnen zwemmen. Om iets nuttig te ontdekken is het, na een experimenteerfase, handig om een zekere vraagstelling of minimaal een duidelijk doel te hebben. Het doen van zinnige dingen met big data is hard werken, al doet menig marketing- en salesafdeling anders geloven. De echte big data komen we vooral tegen in de business-to-consumer-sector. Voorbeelden hiervan zijn klikdata van klanten, longfoto’s van patiënten of belastingaangiftes van burgers. Het resultaat van een big data-analyse is vaak een correlatie op basis waarvan we voorspellingen kunnen doen. Ik bedoel hiermee voorspelling in een brede betekenis, niet alleen het voorspellen van een gebeurtenis. Maar bijvoorbeeld ook het voorspellen of iets in een bepaalde categorie valt (zoals fraude of geen fraude). We krijgen doorgaans geen model van de causale werking van het mechanisme dat leidt tot bepaalde uitkomsten.
Medium data
Vooral in de business-to-businesssector heeft het merendeel van de organisaties helemaal niet met big data te maken. Ze hebben te maken met medium data. Het werken met medium data is toch eenvoudiger dan met big data, zou je zeggen. Er zijn minder problemen met de opslag van de enorme datasets. Er is minder verwerkingskracht nodig en er hoeven geen ingewikkelde clusters op te zetten. Maar de keerzijde is dat statistisch rekenen veel lastiger is. Een foute registratie of een missend stukje data werkt veel harder door en we krijgen gemakkelijker te maken met overfitting van een model. Dit wil zeggen dat het model te specifiek is voor de traindata, waardoor het bij nieuwe data slecht performt. Het model wordt een beetje eenkennig.
Ondanks deze problemen kunnen we veel met medium data. Charles Babbage, informaticus avant la lettre, gaf al aan dat fouten door het gebruik van data met kwaliteitsproblemen veel minder erg zijn dan die door het gebruik van helemaal geen data.
Met je eigen dataset aan de slag
Met de MonkeyMiner Data Cruncher kun je direct aan de slag met jouw dataset, ongeacht of deze bestaat uit Big Data of Medium Data. Op onze download pagina heb je toegang tot een overzicht van best practices om jouw data set te prepareren voor Process Mining of andere Data Science projecten.
Zelf aan de slag met Process Mining binnen jouw organisatie?
Schrijf je in voor de gratis Masterclass!

Linda Terlouw
Dr. ir. Linda Terlouw holds both an MSc in Computer Science and an Msc in Business Information from the University of Twente. Her PhD research focused on modularization of organizations and IT systems using Enterprise Ontology and Service-Oriented Architecture. At the moment she is mainly working on data science (e.g. forecasting), data visualization and process mining (www.monkeymining.com). Before she started her own company, Icris, she worked for IBM and Ordina (a large Dutch consulting firm). Clients she has been working for include several Dutch water suppliers, a large municipality, several factories, and the Ministry of Defense. She is lector (professor) at the Avans+ University of Applied Sciences and teaches at Nyenrode Business University.
Recente reacties