Vormgeven is beter dan genezen (deel 2)

Home › Blog › Vormgeven is beter dan genezen (deel 2)

Welk type visualisatie hoort bij welk analysevraagstuk?

Het visualiseren van data is een vitaal onderdeel in data-analyse aangezien zij grote hoeveelheden informatie op een grafische en bovenal efficiënte begrijpbare manier samen kunnen vatten. In eerdere blogs schreef Tom Dokter samen met Axel van Dijk over de valkuilen van cijfers én de basisregels voor het visualiseren van gegevens. Naast het hanteren van de basisregels is het minstens net zo belangrijk om de juiste visualisatie bij het juiste analysevraagstuk te gebruiken.

Alle type visualisaties hebben hun eigen voordelen en tekortkomingen, en daarmee hun eigen toepasbaarheid. Met andere woorden: niet iedere visualisatie is even geschikt voor ieder vraagstuk en een 'verkeerde’ visualisatie kan zelfs voor verwarring zorgen.

Daarnaast is het maken van de juiste keuze (deels) afhankelijk van de lezer. Zo valt en staat de toepasbaarheid met het kunnen begrijpen en interpreteren van de visualisatie. Logischerwijs kun je ervan uitgaan dat iedereen weet hoe hij of zij een staafdiagram moet interpreteren. Echter worden er (mede door de opkomst van tooling als PowerBI, Tableau, Qlik) in toenemende mate allerlei exotische visualisaties gebruikt waar niet iedereen standaard bekend mee is. Denk bijvoorbeeld aan een treemap/boomdiagram of een sunburst/zonnestraal. Dergelijke visualisaties hebben zeker hun voordelen, maar er gaat ook kostbare tijd verloren aan het waarnemen, interpreteren en begrijpen ervan.

Het maken van de juiste keuzes bij het visualiseren is een van de belangrijkste factoren in het voorkomen van interpretatieverschillen. Maar hoe maak je dan de juiste keuze? Dat ligt eraan wat je wilt laten zien, met andere woorden wat analyseer je?

1. Vergelijking

Een van de meest voorkomende type analyse is het maken van een vergelijking. Hierin kunnen er twee typen worden onderscheiden;

Statisch, één waarde (meting) per variabele gedurende één moment (dan wel periode).
Over tijd, meerdere waarden (metingen) per variabele afhankelijk van het tijdsmoment.

Statisch
Bij statisch wordt er vaak gesproken over de vergelijking tussen categorieën. Denk bijvoorbeeld aan het vergelijken van de brutomarge per bedrijfsonderdeel, of het aantal verkopen per productcategorie. Hierbij is het dus niet belang hoe de brutomarge (dan wel het aantal verkopen) zich over de tijd ontwikkelde. Daarmee is deze categorie visualisaties uitermate geschikt voor het sorteren van hoog naar laag. Mogelijke visualisaties zijn een staafdiagram (liggend, staand of gestapeld), een tabel of matrix. Ondanks dat er geregeld wat gekscherend wordt gesproken over de laatste twee opties als zijnde een visualisatie, zijn tabellen en matrices uitermate geschikt voor het efficiënt overbrengen van een statische vergelijking.

Over tijd
Deze categorie wordt gebruikt om de verandering van een variabele (bijvoorbeeld omzet) over de tijd weer te geven. Normaliter wordt in dit soort visualisaties de tijd van links naar rechts weergegeven op de horizontale as en de bijbehorende waarden op de verticale as. Waar het bij een statisch vergelijking dus gaat om de vergelijking tussen categorieën, gaat het bij een vergelijking over tijd altijd om de vraag: Wat was de waarde in het verleden? Of wat wordt de waarde in de toekomst? En hoe verhoudt dat zich tot elkaar dan wel tot de huidige waarde. Met het uiteindelijke doel om trends te signaleren en daarop te kunnen acteren. Mogelijke opties zijn een staafdiagram (staand), een lijndiagram of combinatiediagram.

Voorbeeldvragen
Welke businessunit heeft in 2021 de hoogste omzet gegenereerd? -> Statisch
Welke businessunit heeft per maand in 2021 het meeste omzet gegenereerd? -> Over tijd

2. Relaties

Een ander veelvoorkomend type analyse is gericht op het vaststellen van verbanden tussen diverse variabelen. Denk bijvoorbeeld aan het effect van een marketingcampagne op verkopen, of het effect van een recruitmentcampagne op het aantal ontvangen sollicitaties. Hierbij worden visualisaties gebruikt om een correlatie aan te tonen, oftewel heeft het één effect op het ander?

LET WEL: Dit betekent niet automatisch dat er een causaal verband is.

Een scatterplot/spreidingsdiagram is hiervoor de beste optie.

Zoals zichtbaar in onderstaand voorbeeld geeft de visualisatie ook inzicht in mogelijke afwijkingen. Vaak wordt hiervoor een trendlijn toegevoegd, waarbij significante afwijkingen (bijvoorbeeld een afwijking van meer dan tien procent) nader worden onderzocht.

Voorbeeldvragen

Is er een correlatie tussen het aantal openstaande facturen en het aantal nieuwe crediteuren per maand in 2021?

Is er een correlatie tussen de marge per business unit en het aantal werknemers?

Is er een correlatie tussen de doorlooptijd van verkoopfacturen en de geografische afstand van de betreffende debiteur tot de business unit?

3. Geospatiaal

Geospatiale data combineert locatiegegevens (bijvoorbeeld coördinaten of adresgegevens) met aan die locatie toe te wijzen informatie. Om de uitkomsten te visualiseren zijn er twee hoofdcategorieën, namelijk punt en polygoon. Zoals te verwachten betreft een punt niets meer of minder dan een stip op een kaart. Oftewel komt iets ergens voor, ja of nee.

Punt
Het zegt dus niets over aantallen op een specifieke locatie of de verhoudingen tussen diverse locaties. Toch kun je hiermee op een snelle en efficiënte manier inzicht geven op nagenoeg alle vragen beginnend met ‘Waar’. Waar wonen mijn klanten/gasten/patiënten? Waar zijn onze vestigingen? Waar wonen mijn medewerkers? Zo is het plotten van deze punten (oftewel de locaties) op een kaart een uitstekend middel om de spreiding van voorgaande vragen weer te geven. Ook zijn eventuele ‘gaten’ op die manier te identificeren. Stel dat er bijvoorbeeld geen vestigingen zijn in het midden van het land, maar wel in het noorden en het zuiden. Dan is een logische vervolgvraag: Waarom zijn er geen vestigingen in het midden van het land? Let wel, dit betekent natuurlijk niet direct dat er dan een vestiging moet komen in het midden van het land. Het geeft slechts inzicht in de huidige spreiding, waarbij je vervolgens kunt ingezoomen op de vraag: ‘Waarom?’

Polygoon
Een polygoon geeft aan hoeveel iets voorkomt op een betreffende locatie dan wel in een regio. Dit hoeft niet exact te zijn, vaak betreft het een indicatie. We zijn bijvoorbeeld inmiddels allemaal bekend met de coronakaart en de bijbehorende kleurcodes welke aangeeft of een gebied donkerrood, rood, oranje, of groenis. De kleuren geven niet aan hoeveel coronagevallen er exact zijn in een bepaald land of regio, maar geven een indicatie. Ook wordt er in een polygoon vaak gebruik gemaakt van ‘ranges’.

Neem bijvoorbeeld het visualiseren van de omzet per regio, waarbij gebieden naarmate de omzet stijgt donkerder worden qua kleur. Elke kleurvariant betreft daarbij bijvoorbeeld een range van 100.000 of 1.000.000 euro afhankelijk van de grootte van de verschillen over de regio's. Voor het vereenvoudigen van de leesbaarheid van polygonen kies je voor een kleurverloop van licht naar donker, waarbij donker het hoogst dan wel het meest voorkomende is.

Daarnaast kan je geospatiale data uitbreiden met zogeheten temporale informatie, oftewel het tijdstip of de levensduur waarin iets voorkomt dan wel van toepassing is op de betreffende locatie. Geospatiale data is dus onder te verdelen in statische informatie (bijvoorbeeld de woonplaats van klanten/gasten/patiënten) en dynamische informatie over tijd (bijvoorbeeld de spreiding van het coronavirus). Hierbij wordt de kaart naarmate de tijd verstrijkt aangevuld met nieuwe punten en zo verder ‘ingekleurd’. De mogelijkheden voor het visualiseren van geospatiale data zijn een kaart, een vormenkaart of een choropletenkaart.

4. Verhouding (ten opzicht van geheel)

Het analyseren van een verhouding lijkt in de kern veel op het maken van een vergelijking. Ook hier zijn er twee typen te onderscheiden, statisch en over tijd. Echter gaat het bij een vergelijking altijd om een of meerdere variabele(n) ten opzichte van een of meerdere andere variabele(n), waarbij het bij een verhouding altijd gaat om een of meerdere variabele(n) ten opzichte van het totaal. Wanneer het een statische analyse betreft zijn de mogelijke opties een honderd procent gestapelde staafdiagram (zowel liggend als staand), een waterval of voor de liefhebbers van een exotischere optie een treemap/boomdiagram.

Gebruik nooit, maar dan ook nooit een taartdiagram of een donut. Do Nut Do That. Zoals gezegd moet een visualisatie eenvoudig en snel te interpreteren zijn. Helaas zijn mensen minder goed in staat om de verhoudingen tussen de diverse hoeken (gradiënten) te interpreteren dan wanneer zij lengtes of parallelle posities ten opzichte van een baseline interpreteren. Het grote probleem bij een taartdiagram en een donut is dat de hoeken zeer divers zijn, en altijd afhangen van de voorgaande en volgende variabele. Hoe meer variabelen er zijn, hoe lastiger het is om de verhouding te interpreteren. Vergelijk bijvoorbeeld onderstaande drie voorbeelden. Met een gestapelde honderd procent kolom is overduidelijk makkelijker te zien wat de verhouding ten opzichte van het totaal is.

Voor een analyse ‘over tijd’ kun je gebruik maken van een ribbon/lintgrafiek.

Een ander vaak gebruikte optie is een gestapelde vlakdiagram. Echter zoals ook in de basisregels beschreven, maakt dit de vergelijking tussen de diverse categorieën onnodig complex.

Voorbeeldvragen
Welke business unit is in 2021 verantwoordelijk voor welk gedeelte van de omzet?
Welke business unit is per maand in 2021 verantwoordelijk is voor welk gedeelte van de omzet?

5. Enkelvoudig

Tot slot bestaan er ook enkelvoudige visualisaties, welke worden gebruikt om één enkele meting weer te geven, oftewel een ‘Wat?’ Wat is de omzet? Wat is NPS? Wat is het aantal openstaande facturen? Let wel, enkelvoudige visualisaties zeggen vaak op zichzelf niks en behoeven andere visualisaties voor het begrip! De visualisatie gebeurt middels een kaart of een KPI. Desondanks wordt er vaak gekozen voor een zogeheten snelheidsmeter.

Een van de redenen om niet te kiezen voor een snelheidsmeter is de zeer lage data-inkt-ratio (basisregel 1). Ook speelt hier het probleem van het interpreteren van hoeken. Het ziet er vaak leuk uit, maar het is niet eenvoudig zichtbaar of je nu 90%, 95% of 98% van je target zit. Wel kun je vaak aflezen wat de huidige waarde dan wel het doel is, maar waarom zou je dan niet gewoon een KPI of een kaart gebruiken? Beide nemen minder ruimte in, hebben een betere data-inkt-ratio en zijn sneller juist te interpreteren. Vergelijk onderstaande drie voorbeelden.

De vraag is wederom: Wat wil je laten zien? Stel dat hier gaat om de huidige totaalomzet. Het antwoord is dan 3,17 miljoen. Niets meer, niets minder. Hetgeen uiteraard in alle drie de opties af te lezen is. Echter trekt de blauwe meter meer aandacht dan het getal 3,17 miljoen. Een lezer gaat zich daardoor (on)bewust afvragen hoe groot het grijze gebied is tussen de blauwe balk en het streepje. Vervolgens pakt men pen en papier en rekent (na even bestuderen) uit dat het verschil 730K is (3,90 miljoen min 3,17 miljoen), oftewel 18,64%. Dit verschil had je ook prima (en eigenlijk beter) in een aparte visualisatie kunnen weergeven, aangezien dit een andere analysevraag is en daarmee een ander type visualisatie vraagt. Namelijk een vergelijking.

Dashboard
Door dit te combineren in een dashboard is een lezer in staat om zowel de totale omzet (in een Kaart of KPI) als de omzetontwikkeling ten opzichte van de begroting over de tijd (lijndiagram) snel en bovenal juist te interpreteren. Hiermee voeg je de reeds benoemde context toe aan je enkelvoudige meting, waardoor een lezer het geheel eenvoudiger kan waarnemen, interpreteren en begrijpen. Logischerwijs stelt dit de lezer ook beter in staat om de juiste conclusies te trekken.

Stel dat de totaalomzet relatief laag is, dan is de snelle conclusie dat dit niet goed of zelfs slecht is. Maar wat als de omzetontwikkeling weergeeft dat de omzet met name in de eerste drie maanden van het jaar ver onder begroting zat (bijvoorbeeld door corona of andere factoren) en daarna iedere maand boven begroting zat? Dan lijkt de eerste conclusie op z’n minst wat voorbarig. Oftewel er is aanvullende informatie (context) nodig om de enkelvoudige visualisatie (bijvoorbeeld totaalomzet) juist te interpreteren.

Conclusie

Het visualiseren van data is een vitaal onderdeel in data-analyse. Het maken van verkeerde keuzes bij het visualiseren resulteert in tijdrovende en mogelijk zelfs schadelijke interpretatieverschillen. Gesprekken gaan meer dan eens over het begrijpen van visualisaties in plaats van het verhaal achter de cijfers. Door bij het visualiseren van data rekening te houden met de basisregels én met het kiezen van de juiste visualisatie, gaat kostbare tijd niet langer verloren aan het waarnemen, interpreteren en begrijpen van visualisaties. Zo kunnen we tijd besteden aan waar het voor bedoeld is, namelijk het verhaal achter de cijfers, waarmee zowel de snelheid als de kwaliteit van besluitvorming en aansturing van organisatieswordt verhoogd.