Artikel verschenen op Managementimpact
Zolang de mensheid gegevens verzamelt, worstelen we met de betrouwbaarheid. Laten we even teruggaan naar 1492, het jaar waarin Columbus Amerika ontdekte. Wist je dat dit een toevalstreffer was, gebaseerd op een ‘datafoutje’? Omdat hij van een Perzische geograaf uitging, had hij de Arabische mijl als eenheid moeten gebruiken. Maar hij rekende met de Romeinse mijl, die een stuk korter is. Dit pakte goed uit – gelukkig. Hoe anders verging het de Mars Climate Orbiter in 1999, ruim vijf eeuwen later. Een enorme crash, veroorzaakt door een ontwerpprobleem bij de conversie van inches naar centimeter.
Dit zijn twee grote, bekende voorbeelden die pijnlijk duidelijk maken wat de gevolgen van slechte datakwaliteit kunnen zijn. In de meeste organisaties is het op orde krijgen van datakwaliteit nog steeds één van de belangrijkste uitdagingen. Het kost geld, het leidt tot fouten en het is steeds vaker een randvoorwaarde voor innovatie. De benefits van Blockchain, Artifical Intelligence (AI) en robotisering zijn namelijk direct afhankelijk van de kwaliteit van de input: data. Het zijn geen utopische oplossingen waarvoor geldt dat ‘garbage in’ is ‘goud uit’. Het zijn technologieën die buitengewone dingen mogelijk maken, mits de datakwaliteit goed is. Het belang van datakwaliteit wordt eigenlijk alleen maar groter. In de praktijk zie ik veelvuldig dat het realiseren ervan nog niet altijd zo eenvoudig is. Deels wordt dit gevoed door drie misverstanden die ik tegenkom in de praktijk en hieronder zal toelichten.
De praktijk brengt datakwaliteit al snel terug tot deze twee dimensies. Maar stel, je organisatie wil vanuit risico-oogpunt graag antwoord op de vraag: welke klanten kampen met werkloosheid? Alleen je klantcontactsysteem ondersteunt dit gegeven niet. Medewerkers typen in een vrij tekstveld allerlei waarden, naar eigen inzicht. Van ‘werkloos’, ‘zit thuis’, ‘werkloosheid’ tot fout gespelde varianten als ‘werkeloos’. Deze data zijn inderdaad juist en volledig, maar door de inconsistente vastlegging krijg je geen totaaloverzicht. Zeker als de lijst met waarden groot is, kun je de data alleen nog met handmatige reviews en correcties herstellen. Enkele tips:
- Houd oog voor alle dimensies van datakwaliteit. Naast juistheid en volledigheid zijn dit bijvoorbeeld: consistentie, validiteit, tijdigheid en herleidbaarheid.
- Bepaal daarbij welke checks belangrijk zijn.
- Zorg voor een goed beeld van je data-requirements. Zo dwing je al bij de proces- en systeeminrichting een gestructureerde vastlegging van gegevens af en werk je echt aan ‘Data quality by design’.