Durf datakwaliteit een cijfer te geven

Niet alle data zijn goud
Peter Noordam
Management Consultant

Deze blog van Peter Noordam is verschenen op AG Connect.

‘Data is het nieuwe goud’. Een uitdrukking die we al zo vaak hebben gehoord, dat hij bijna zijn glans verliest. Maar wat maakt data precies tot dat beloofde goud? In ieder geval niet die groeiende berg aan losse datasets. Het zit ‘m in de match, de combinatie van data. Pas dan krijg je waardevolle inzichten. Alleen door de hoeveelheid data en snelheid van integratie staat de datakwaliteit op de tocht. Een risico dat groeit als je bronbestanden van externe partijen gebruikt of op de markt inkoopt, omdat je dan ook nog eens te weinig grip hebt op de externe bron.

Een paar voorbeelden. Volgens de KLIC-melding bij het Kadaster liggen er op een bepaalde plek geen kabels. Maar de eerste laag zand is nog niet aan de kant of de contouren van leidingen verschijnen. De bron ligt bovendien niet bij het Kadaster, maar bij de gemeente die de brondata heeft aangeleverd. Nog een voorbeeld, een controle op het juist gebruik van gebouwen.

Grote gemeentes schakelen hiervoor een partij in die data van Google Streetview vergelijkt met persoonsgegevens. Juist die combinatie vergemakkelijkt de zoektocht naar illegale huurders. Maar het laat zich raden als de gemeente alléén deze bron vertrouwt om te besluiten tot ontruiming…

Meer weten over datamanagement? Bestel ons boek!

Peter Noordam heeft samen met twee collega’s het boek ‘Succesvol Datamanagement – meegroeien in het datatijdperk’ geschreven. Dit praktische boek gaat in op het organiseren van data en blijft ver van de techniek. Het helpt om de basis op orde te krijgen. Of je nu als manager, directeur of medewerker met data bezig bent, dit boek geeft iedereen inzicht en praktische handvatten om aan de slag te gaan.

Beleid voor datakwaliteit

Nog te vaak bepalen organisaties datakwaliteit op basis van intuïtie, het onderbuikgevoel. Maar onbetrouwbare data zijn een slechte raadgever. Ze zorgen voor verkeerde beslissingen, wankele prognoses en zelfs reputatieschade.

Daarom pleit ik voor beleid op datakwaliteit, zeker bij externe bronnen. Om goed beleid op datakwaliteit op te bouwen zijn deze vijf vragen een sterk startpunt:

  1. Waarom willen we deze informatie? Dit antwoord biedt focus, voorkomt verzameldrift en werkt kostenbesparend.
  2. Welke eisen komen er op het ‘boodschappenlijstje’? Hoe specifieker, hoe beter. Van de soort data, definities en het niveau tot de coderingen. Ook de kwaliteitseisen neem je hierbij op.
  3. Is er een autoratieve bron mogelijk? Een gezaghebbende bron in de markt; de single source of truth voor specifieke data-elementen. Denk aan het CBS of BAG (Basisregistratie Adressen en Gebouwen). Ga daar het liefst vanuit. En werk eventueel met de externe bronleverancier samen om datakwaliteit te verbeteren.
  4. Hoe ontsluiten en integreren we de nieuwe data met onze bestaande data? Een nieuw, vergelijkend bronbestand is vaak moeilijk te integreren met bestaande data. Een kraamkamer kan dan uitkomst bieden. Zo’n kraamkamer kunt u zien als de klusschuur in uw tuin. Voordat de nieuwe data structureel in het datawarehouse worden ingenomen, analyseert u in de kraamkamer óf de data ingenomen kunnen worden. En zo ja, hoe de integratie moet plaatsvinden.
  5. Hoe labelen we de datakwaliteit? De datakwaliteit van een externe bron is nooit gegarandeerd, ook niet bij een autoratieve. Daarom zijn wij voorstanders van een rapportcijfer, een ‘kwaliteitslabel’ – iets wat we nog amper zien, maar in één oogopslag de betrouwbaarheid van de data demonstreert. Vergelijk het met de assurance die een accountant aan de jaarcijfers geeft. Alleen treedt hier de data steward op als ‘gatekeeper’ van de kwaliteit. Heb je ondanks alles toch data van mindere kwaliteit? Wees er transparant over naar je organisatie én gebruikers, want dat levert meer weloverwogen beslissingen op.
Peter Noordam
Management Consultant