- René van Maarsseveen - https://renevanmaarsseveen.nl -

Big Data zonder nadenken

big data in het Vaticaan

Big data is hot. Evenmin als de berichten dat de NSA en anderen ons digitaal volgen is data-analyse op grote schaal iets van nu. Het gebeurt namelijk al jaren. Ok, de gereedschappen zijn verbeterd en er zijn meer gegevens om mee te werken omdat we tegenwoordig veel digitaal doen. Bovendien zijn de computers zo krachtig dat op grote schaal berekeningen kunnen worden gemaakt die weer nieuwe gegevens opleveren.

Big Data

big-data-analyseEn het is inderdaad zo dat al die Big Data het mogelijk maakt interessante informatie te verkrijgen. In artikelen over Big Data krijg je daarvan continue dezelfde voorbeelden voorgeschoteld; je kunt er epidemieën mee voorspellen en files, je ziet nieuwe trends zich ontwikkelen en je kunt zelfs voorspellen waar kruimeldieven gaan toeslaan.

Maar Big Data zonder nadenken levert slechte informatie. Vroeger maakte ik nog wel eens de vergelijking met een rekenmachine. Stel dat de 7 niet werkt. Dat zal bij veel uitkomsten van de sommen die je op de calculator berekent geen probleem zijn. Maar toch zal een groot aantal niet het juiste resultaat geven.

Bij Big Data is waarschijnlijk het apparaat niet het probleem. Het grootste probleem is de interpretatie van de gegevens en dat doet de mens zelf. Ik ga nog maar even voorbij aan het vals interpreteren van de gegevens voor eigen doeleinden; dat afhankelijk van de interpreterende organisatie bij de gegevens andere resultaten oplevert. Dat gebeurde altijd al, mensen argumenteren nu eenmaal altijd naar hun eigen voordeel, belang of gewenste resultaten.

De mens is de zwakke schakel

big-data-interpretatieDe mens is de zwakke schakel. Om twee redenen. De eerste reden is wellicht minder relevant, maar ik hoor of lees er weinig of nooit iets over.

Bij veel voorbeelden die worden gegeven van de voordelen van Big Data denk ik ‘daar hadden we helemaal geen Big Data voor nodig’. Met andere woorden, Big Data haalt de ‘common sense’ weg, waardoor we uiteindelijk dommer worden.

Als AJAX zijn overwinningsfeestje op het plein van de Arena viert heb ik geen Big Data nodig om te begrijpen dat het in de omgeving van de Arena druk zal zijn. En ik weet al jaren dat, als het ’s ochtends slecht weer is, het ’s avonds drukker is op mijn route van woon-werkverkeer. Ik huiver van het moment dat we geen beslissing meer durven nemen omdat we wachten op de Big-Data interpretatiegoden.

Intermezzo

Vorige week was ik bij een oudere vriendin. Ze wilde graag het NOS Journaal van acht uur zien, dus keken we. Ze zat er echter de gehele tijd doorheen te wauwelen. Tot het moment dat de weerman kwam. ‘Ssshht’, zei ze dwingend. Het was even stil terwijl de weerprofetie werd uitgesproken waar bijna niemand in Nederland meer in gelooft.

Ok, dat is ingesleten gedrag, maar ik vind het ook gewoon dom gedrag. Want weerprofetie is Big Data analyse. Het ziet er steeds indrukwekkender uit, maar voor mijn gevoel zat Jan Pelleboer altijd dichter bij de waarheid. Hij keek daarvoor alleen maar naar de lucht, net als een gewone boer. Zelfs de Deventer almanak is betrouwbaarder dan de Big Data analisten van het KNMI.

Big Data zonder nadenken

De tweede reden is onnadenkend interpreteren. Daarmee bedoel ik: uitgaan van de gegevens en niet of te weinig onderkennen dat je te weinig of te veel onjuiste gegevens hebt van hetgene waarover je iets wilt zeggen.

big data zonder nadenkenEen mooi voorbeeld is de Griep-voorspelling van Google. Ik gaf het als voorbeeld in een eerder bericht. Het komt er op neer dat Google, aan de had van zoektermen die mensen gebruiken kan zien wat mensen bezig houdt.

Ze zagen op een gegeven moment dat in een bepaald gebied het aantal griepgerelateerde zoekvragen aanzienlijk was toegenomen. Ze interpreteerden dat mensen symptomen hadden en daarover informatie wilde, waaruit dan weer mocht worden geconcludeerd dat daar griephaarden waren.

Later bleek de conclusie niet te kloppen. Medewerkers van de Amerikaanse gezondheidsdiensten beseften dat mensen die nog geen griep hebben, maar wel weten dat er een griepperiode kan komen, ook informatie zoeken. Die mensen hebben de symptomen nog niet, maar willen zich er wellicht tegen wapenen. Hun op preventie gerichte zoektocht werd meegenomen in de conclusies. Daardoor klopte niet alleen de vaststelling van grieplocaties niet, ook het percentage grieppatiënten was aanzienlijk lager dan Google had voorspeld (6% in plaats van 11).

Excuus van Google? Een groot deel van de interpretaties wordt gedaan door algoritmes. Maar die worden toch ook door mensen bedacht en geschreven.

Mensen en conclusies

Ik heb weinig vertrouwen in de wijze waarop mensen gegevens interpreteren en conclusies trekken. Anders gezegd, hoe ze met informatie omgaan. Laat staan met grote hoeveelheden informatie. Met Big Data liggen foute conclusies constant op de loer. Ik ben benieuwd tot hoeveel onbedoelde en ongewilde problemen dat gaat leiden.