Ontbrekende data: vertel het hele verhaal met Qlik
Waarom keren sommige vliegtuigen niet terug van het slagveld? Zijn de succesverhalen van bijvoorbeeld Bill Gates, Jeff Bezos en Mark Zuckerberg wel een goede leerschool? En waarom dacht men in 1987 dat katten meer kans op overleving hadden als ze van een hogere verdieping vielen? Al deze vragen hebben één gemeenschappelijke factor: ze hebben last van “survivorship bias”.
SURVIVORSHIP BIAS
Als je veel met data werkt komt deze term je mogelijk bekend voor. Survivorship bias is het verschijnsel waarbij resultaten (of overlevers) van een bepaald proces disproportioneel behandeld worden. Incomplete datasets, gebrek aan context of het foutief interpreteren van data staat vaak aan de basis van deze misvatting. Als je begrijpt waarom survivorship bias voorkomt en je het effect kan herkennen, kan dat je helpen om je data beter te doorgronden waardoor je analyses betrouwbaarder en meer valide worden. In de (recente) geschiedenis vinden we overigens tal van voorbeelden van dit verschijnsel: het overkomt wetenschappers, entrepreneurs en onderzoekers.
SUCCES BEHALEN OF NIET FALEN?
In het boek “The Black Swan: The Impact of the Highly Improbable” schrijft Nassin Taleb: “The cemetery of failed restaurants is very silent.” Vaak worden de succesverhalen van entrepreneurs gebruikt als voorbeeld hoe het moet, maar naast die kleine hoeveelheid succesverhalen bestaat een veelvoud aan entrepreneurs die het niet redden. Bill Gates (Microsoft), Jeff Bezos (Amazon), Mark Zuckerberg (Facebook) zijn inderdaad succesvol in hun business, maar zij kunnen slechts één kant van het verhaal vertellen: hoe zij het hebben gedaan en hun succes hebben behaald. Alle anderen, die wellicht exact dezelfde stappen hebben ondernomen, die exact hetzelfde talent (of zelfs meer) bezitten, die ook 100% ambitie hebben getoond, zij hebben het niet gehaald en hun verhaal is misschien nog wel interessanter. Zij kunnen je namelijk vertellen wat er gebeurd is waardoor zij gefaald hebben. Juist in deze verhalen zit vaak wijsheid waaruit we kunnen afleiden waarom dingen fout gaan, waarom we falen. Als we alleen maar focussen op diegenen die “overleven”, missen we de volledige scope van de data en begrijpen we niet hoe onze processen daadwerkelijk functioneren.
“The cemetery of failed restaurants is very silent.” – Nassin Taleb
VALLENDE KATTEN
Een ander voorbeeld is ontstaan in 1987: een groep wetenschappers onderzoekt hoe groot de kans is dat katten een val van een bepaalde verdieping overleven. De onderzoekers baseren hun conclusies op data verkregen van dierenartsen. Die zijn hoogst opmerkelijk te noemen: de onderzoekers stellen vast dat hoe hoger de kat valt, hoe groter de kans op overleving is. Het is zelfs zo dat 100% van de katten die van de zesde verdieping of hoger vallen hun val overleven. Volgens de onderzoekers kan dit doordat de katten de maximale valsnelheid behalen tijdens zo’n val en zich ontspannen en vervolgens klaarmaken voor de landing met als gevolg een betere kans op overleving.
The Straight Dope Newspaper wist deze theorie 10 jaar later te ontkrachten. Er is in deze casus namelijk ook sprake van survivorship bias: de onderzoekers troffen bij de dierenartsen slechts data aan van de katten die behandeld waren. Aangezien er geen informatie was over katten die van een hogere verdieping vielen, namen de onderzoekers aan dat deze katten hun val dus zonder kleerscheuren overleefden. Het tegendeel was echter waar: deze katten overleden (vrij) direct als gevolg van hun val en hebben dus nooit de operatietafel van de dierenarts gehaald. Daardoor werden ze niet geregistreerd, en maakten ze dus geen deel uit van de dataset.
VLIEGTUIGEN TIJDENS WOII
Het is 1943: grote delen van Europa worden bezet door Duitse troepen. De geallieerden proberen hier en daar openingen in de verdediging te slaan, onder meer met vliegtuigbommen maar nog zonder al te veel succes. Veel vliegtuigen worden uit de lucht geschoten en gaan verloren. Het Center for Naval Analyses is daarom op zoek naar een mogelijkheid om de bommenwerpers meer te bepantseren. Om ervoor te zorgen dat de vliegtuigen nog steeds kunnen opstijgen, kan niet de hele machine worden voorzien van een verstevigde laag: men moet dus kiezen op welke delen een extra pantser wordt geïnstalleerd. Terwijl de experts van het Center for Naval Analyses noteren waar de vliegtuigen die terugkomen het meest zijn geraakt, wordt ondertussen de hulp ingeschakeld van de Statistical Research Group (SRG) van Columbia University.
Het is Abraham Wald, in 1938 nog gevlucht naar de Verenigde Staten tijdens de opmars van de Duitse troepen, die met een onverwachte conclusie komt: verstevig de vliegtuigen op de plekken waar de machine níet is geraakt. Wald komt tot deze bevinding door te stellen dat vliegtuigen die terugkomen zijn geraakt op niet-fatale plekken: zij hebben ondanks de schade toch terug kunnen keren. De vliegtuigen die geraakt zijn op andere plekken hebben het blijkbaar niet gered, en dat is de reden waarom volgens Wald de machines beter kunnen worden bepantserd op deze delen. Het advies wordt opgevolgd en mede dankzij de statistische benadering van het probleem door Wald winnen de geallieerden terrein.
“The extra armor belonged not on the part of the plane that could survive a lot of bullets, but to the part of the plane that couldn’t.” – Abraham Wald
SURVIVORSHIP BIAS IN QLIK SENSE
De cognitieve engine van Qlik helpt je om survivorship bias tegen te gaan. In de afbeelding hierboven zijn alle type Hole Location geselecteerd (groen), behalve ‘No Holes’ (lichtgrijs). Vervolgens geeft Qlik overzichtelijk weer welke selectiemogelijkheden in Plane en Status nog beschikbaar zijn (wit), en welke niet beschikbaar zijn (donkergrijs). Met deze selectie in Hole Location zien we dat alle vliegtuigen die als status ‘Shot Down’ hebben buiten de dataset vallen. Met andere woorden: vliegtuigen met deze schade keren terug en worden dus niet fataal geraakt. Qlik zorgt er dus voor dat jij geen data mist: door gebruik te maken van verschillende kleuren wordt duidelijk wat er wel en wat er niet tot de (geselecteerde) dataset behoort. Op die manier zie jij tijdens je analyse niets over het hoofd!
Meer weten over hoe Qlik jouw data inzichtelijk kan maken?
Onze consultants helpen je graag je data goed te structureren en in kaart te brengen zodat jij goed geïnformeerde beslissingen kan nemen. Neem gerust contact met ons op of vraag een vrijblijvende demo aan.
// Geschreven door: Ronan Berendsen – BI Consultant Climber
Email: ronan.berendsen@climber.nl
Phone: +31 6 15 28 07 42
Bron:
Mangel, M., & Samaniego, F. J. (1984). Abraham Wald’s work on aircraft survivability.
Wald, A. (1980). A Reprint of’A Method of Estimating Plane Vulnerability Based on Damage of Survivors (No. CRC-432).
https://blog.qlik.com/the-hole-story-and-bias-in-ai
Nieuws
Qlik Trends 2025
Join us on January 15, 2025 for a Qlik streaming event, After AI: Reinventing Data, Insights, and Action Amidst the Noise. We’ll reveal and explore the three key topics dominating the AI-in-data conversation, and examine the trends that will help shape the positive impact of AI to drive the most business value in the face of chaotic debate.
>> REGISTER NOWWhat’s New in Qlik Cloud – Dec 2024
From enhanced tables to advanced machine learning capabilities, here’s an overview of the latest updates that make Qlik Cloud an even more powerful platform for developers, analysts, and business users alike.
>> Read moreQlik a Leader in the 2024 Gartner Magic Quadrant for Data Integration Tools
Unsure of how to evaluate the best solution for your needs? Get your free copy of the 2024 Gartner Magic Quadrant report for Data Integration for a quick overview of the landscape and see why Qlik has been named a Leader for the ninth time in a row.
>> Download the report