Data-schoonmaak of data-onderhoud – wat is belangrijker?

Er zijn twee manieren om de kwaliteit van je data te verbeteren. Het schoonmaken van data is het (eenmalig) opschonen van data in de database, wat er voor zorgt dat verkeerde data in de toekomst niet nogmaals de kwaliteit van je rapporten en inzichten vervuild. Data-onderhoud is het doorgaand verifiëren en corrigeren van data door middel van continue verbeteringen en regelmatige controles.

Maar welk proces is nu belangrijker? Welk proces is nu het meest de moeite waard om in de lange termijn op te focussen? Daar is geen simpel antwoord op te geven, maar Martin Doyle van DQ Global legt in dit artikel uit hoe je wel heel gemakkelijk het verschil tussen beide kan begrijpen.

Snoep gezond, eet een appel

Wanneer we over data nadenken, dan kunnen we het vergelijken met onze gezondheid. Data-onderhoud kun je heel goed vergelijken met tandenpoetsen. Tandartsen raden aan om tenminste twee keer per dag te poetsen om te voorkomen dat je tanden achteruit gaan. Als we dit niet doen zorgt de suiker in ons eten en drinken er voor dat het glazuur op onze tanden langzaam maar zeker afneemt totdat onze tanden beginnen te rotten.

Hoe langer de tijd tussen poetsbeurten, hoe kwetsbaarder onze tanden worden. Zo moet ook onze database constant onderhouden worden.

Waarom?

Data in een database kan op dezelfde manier als tanden gaan rotten. Frequent data onderhoud is nodig om te zorgen dat de data in een goede gezondheid blijft verkeren en de natuurlijke rot zich niet kan ontwikkelen tot een catastrofe. Het is een taak die je als data-bewuste organisatie simpelweg niet kunt vermijden.

Maar waarom dan het opschonen van data?

De harde realiteit

Het tandenpoetsen helpt om te voorkomen dat je tanden beginnen af te brokkelen, maar toch moeten we regelmatig de tandarts bezoeken. Tijdens zo’n afspraak worden onze tanden goed gecontroleerd en professioneel schoongemaakt. Enige schade die we toch aan ons gebit hebben opgelopen wordt gerepareerd voordat het escaleert. Tandenpoetsen betekent niet dat deze bezoeken kunnen worden overgeslagen.

We vinden het misschien niet fijn om naar de tandarts te gaan, en er zijn zeker leukere manieren om onze tijd te besteden, maar deze regelmatige controles zijn essentieel als we willen dat ons gebit een leven lang mee gaat.

Op dezelfde manier moeten we regelmatig onze data laten controleren en valideren door een expert. Er is software, zoals bijvoorbeeld DQ Match van DQ Global of Data Wrangler van SVG, die je helpt om de kwaliteit van je data te controleren. Dit is de tandartsafspraak voor je database – de kans om fouten te vinden en te repareren die over tijd in je data zijn geslopen. Door data te vergelijken kunnen geautomatiseerde processen mogelijke duplicaten oppikken, en data vinden die zich niet aan de regels houdt.

Activiteit Gemiddelde schoonmaak
Preventie 10%
Detectie 30%
Reparatie 60%

 

data cleansing

Activiteit Ideaal Onderhoud
Preventie 45%
Detectie 30%
Reparatie 25%

data maintenance

Wordt niet afhankelijk van een kunstgebit

Als je niet goed voor je tanden zorgt, dan heb je uiteindelijk niets meer – je kunt hooguit hopen op een kunstgebit wanneer je oud bent. Als je niet goed voor je data zorgt, dan kunnen al je inspanningen en investeringen uiteindelijk voor niets blijken. En het is onmogelijk om waardevolle rapporten samen te stellen op basis van enkele restjes van accurate data die je nog wel hebt. De enige manier om verder te gaan is door opnieuw te beginnen en een nieuwe set data van iemand anders te kopen.

Afgezien daarvan gaat een organisatie zonder betrouwbare data een onzekere toekomst tegemoet. Zonder je meest belangrijke bezit -de informatie om verstandige beslissingen te maken- ben je constant zoekende naar wie je klanten zijn.

Er is geen kortere weg naar data van goede kwaliteit, en je kunt schoonmaak en onderhoud van je data dan ook niet overslaan.