Print:

Er zit een luchtje aan Big Data

Aan het einde van de 19e eeuw voerde een stedenbouwkundige uit New York op een conferentie een vurig betoog, met bijbehorende waarschuwing, dat tegen 1950 de stad volledig onbewoonbaar zou zijn. Het probleem, zoals hij het zag, was dat bij de huidige groei van de stad deze niet in staat zou zijn om het groeiende aantal paarden te huisvesten. En, belangrijker, om hun afvalproducten te verwerken. Vanaf 1950, zo redeneerde de stedebouwkundige, zouden de straten van New York volledig bedekt zijn met een dikke laag paardenmest.

Bij de meeste lezers zal deze anekdote op z’n minst een glimlach op het gezicht brengen. De stedenbouwkundige kreeg immers geen gelijk. De introductie van de auto maakte dat het probleem werd opgelost zonder dat het ooit een drukkend probleem kon worden. Geen speld tussen te krijgen. Of toch wel? Auto’s werden namelijk niet uitgevonden om een einde te maken aan de zich opstapelende paardevijgen in de straten van de Amerikaanse stad. Ze werden uitgevonden om een einde te maken aan de beperkingen van een paard als transportmiddel, niet aan de ongebreidelde productie van uitwerpselen.  Er bestaat wellicht een correlatie tussen paardenmest en de uitvinding van de auto, maar er is geen causaliteit.

Op soortgelijke wijze zit er een luchtje aan Big Data. Ik sta bekend als een voorstander van Big Data en data gedreven strategieën in organisaties. Maar steeds meer artikelen in de media lijken Big Data op te hemelen als de ideale oplossing voor ‘predictive analytics’: het gebruik van steeds grotere datasets om gebeurtenissen die zullen plaatsvinden in de toekomst te voorspellen. De gedachte dat ‘het gebruik van grotere datasets het voorspellend vermogen verbeterd’ moet in zichzelf al een grote alarmbel laten rinkelen. Ik weet uit ervaring dat predictive analytics een haalbare en betrouwbare oplossing voor een aantal problemen is. En op sommige momenten is het mogelijk om met Big Data indrukwekkende resultaten te bereiken. Maar alleen omdat sommige indrukwekkend slimme mensen aan die Big Data werken. Bijna nooit omdat ze meer data gebruiken.

In zijn recente boek ‘Big Data: Een revolutie die zal veranderen hoe we leven, werken, en denken’ biedt Victor Mayer-Schönberger een aantal overtuigende voorbeelden van predictive analytics. Bijvoorbeeld hoe artsen, door het analyseren van de gegevens van honderden te vroeg geboren baby’s, nu weten dat de voortekenen van een ernstige infectie in een nieuw geborene niet liggen in een destabilisering van de gezondheid van het kindje, maar juist in de stabilisering van de gezondheid. Of hoe brandweerkorpsen, door het analyseren van gegevens uit eerdere branden, in combinatie met vastgoed gegevens en sociaal-demografische gegevens over de inwoners, nauwkeurig kunnen voorspellen waar nieuwe branden zullen uitbreken.

Op basis van die inzichten kunnen zij hun mensen en materieel beter plannen en afstemmen op de behoeften voor bepaalde typen branden in bepaalde buurten. Maar alle voorbeelden van Mayer-Schönberger hebben iets belangrijks gemeen: de voorspellingen zijn niet beter dan normaal als gevolg van de omvang van de dataset, maar doordat slimme mensen de combinatie van de juiste gegevens, technologie en inzicht samenbrengen tot een geode oplossing. Alleen mensen die weten waar ze het over hebben kunnen in complexe analytische omgevingen causale verbanden ontdekken tussen de correlaties die door Big Data systemen worden gepresenteerd.

Begrijp me niet verkeerd: ik wil het belang van Big Data niet bagatelliseren. Maar ik bagatelliseer wel het vermogen van Big Data om problemen op eigen houtje op te lossen. Het oplossen van problemen vergt immers in eerste instantie kennis van de context van het probleem. Zonder die context wordt het al te gemakkelijk om de ondergang van een grote stad te voorspellen door toedoen van mest.

De uitvinding van de auto keerde voor de stad New York op de valreep het tij van de verwachte tsunami aan uitwerpselen. Maar het was een ‘narrow escape’. Want als één van de grondleggers van auto-industrie niet zo koppig was geweest bij het bouwen van auto’s dan zou het probleem net zo makkelijk zijn vergroot. Immers, het was niemand minder dan Henry Ford die zei: “Als ik naar mijn klanten had geluisterd, zou ik snellere paarden hebben gebouwd”.

Over Arent van 't Spijker

Arent van ’t Spijker
Is senior consultant bij Blinklane Consulting is docent bij de Opleiding Informatiemanager en auteur van het boek, The New Oil: Using Innovative Business Models to Turn Data Into Profit.