Ako sa nenechať zmanipulovať grafmi

Autor: Martin Marušic | 19.10.2010 o 15:46 | Karma článku: 11,77 | Prečítané:  3477x

Vyjadriť údaje grafmi má oproti vypísaniu štatistických údajov niekoľko výhod. Pri väčších číslach človek rýchlo stráca predstavu, koľko to asi je a v texte sa rozličné vzťahy medzi číslami popisujú dosť ťažkopádne. Naproti tomu pekný obrázok, kde sú vyjadrené iba základné fakty a vzťahy, mu ľahšie umožní sa v problematike zorientovať a ovládnuť aj číselné giganty. Pozriem, čísla si nezapamätám, z obrázku si spravím predstavu a idem ďalej. A práve fakt, že dáte na prvý pohľad, robí graf obľúbeným u tých, ktorí vám chcú vmanipulovať svoj vlastný názor. Na niekoľko základných vecí ako grafom porozumieť a ako k nim pristupovať, aby ste nimi neboli uvedení v omyl poukáže tento článok.

Článok voľne nadväzuje na moje staršie články o falšovaní štatistík a o ich účelovo orientovanej interpretácii. Tentokrát by som chcel poukázať aj na psychologický účinok vhodne nakresleného grafu, preto sa moje subjektívne pocity nemusia vždy stopercentne zhodovať s vašimi.

Začnime malým testom. Na obrázku dole je výsek, kde som v jednom kruhu ponechal pôvodné číslo, ktoré tam bolo napísané a zvyšné dve vymazal. Skúste si v hlave tipnúť, približne aké čísla boli v tých dvoch. Nižšie nájdete odpoveď.

graf1.JPG
(graf1)
Základné pravidlo grafu je, že musí vyzerať zaujímavo. Nikoho nezaujíma sledovať vodorovnú čiaru, tá krivka musí skákať a najlepšie tak, aby na konci išla smerom, ktorým chceme. Čiže keď uvidíte krivku bez mierky, hneď zbystrite pozornosť. A keď aj na strane máte merítko, presvedčte sa, či skutočne začína od nuly. Pozrime sa na nasledujúce dva grafy.

graf2.JPGgraf3.JPG
[5] (graf2, graf3)
Graf vľavo je originál, graf vpravo som spravil s tým, že mierka začína od nuly. Problém toho ľavého grafu je ten, že chýbajú záchytné body pre porovnanie, koľko to asi je. To je ale kľúčový prvok u grafov, lebo človek si málokedy z nich pamätá čísla ale takmer vždy ako ten graf vyzeral. V praxi si to potom ohodnotí výrazom typu: ide to trochu hore, ide to radikálne hore, je to prakticky stálé, čo býva väčšinou jediný poznatok, ktorý mu graf dá a práve toto hodnotenie možno šikovnou mierkou výrazne ovplvyniť. Určite na vás tie dva grafy pôsobia trochu ináč. Preto grafy vyžadujú ďaleko viac času na venovanie sa im, ako by sa zdalo.

Mal by som k tomu grafu ale ešte dve výhrady. V prvom rade mi nie je jasné, prečo sú údaje z toho istého roku vedľa seba, prečo nemohli byť tie údaje nad sebou trebárs so šípkou smerujúcou od plánu ku skutočnosti. Určite je vhodnejšie zachovávať vo vodorovnom smere rovnako dlhú jednotku (v tomto prípade rok). Ďalšia otázka je, prečo keď popisujú deficit, dávajú k tým číslam znamienko mínus. Záporný deficit je totiž striktne vzaté prebytok (všimnite si, že cieľ je znížiť deficit a sloveso znížiť samo hovorí, že tie hodnoty by teda mali ísť dole). Na tú otázku ale poznám odpoveď - to mínusko má upútať pozornosť. Nie je to ale zase tak tragická vec, ktorá by človeka úplne domotala. Pre konštruktívnu kritiku uvediem môj návrh na graf z tých dát, ako pokus spraviť ho ľahšie pochopiteľným a psychologickými prvkami nezaťaženým. Nenárokujem si, že je to to najlepšie čo môže byť.

graf4.JPG
(graf4)

Teraz k tomu grafu z úvodu.

graf5.JPG
[5] (graf5)
Neviem, ako ste tipovali, ale vcelku pochybujem, že si niekto trúfol povedať, že tá malá bodka predstavuje 3,749. Hlavná autorkina chyba, ktorá sa ale vyskytuje veľmi často, bola, že plochy grafu nezodpovedajú číslam. Pomer tých troch plôch mi premeraním vyšiel 1:1,600:0,076. Nebolo to extrémne presné meranie (screen saver, transfer do pdf a tam premerane), ale istú predstavu nám to dá. Pri prepočítaní dáva výsledok

Príjmy:12,531
Výdavky: 20,050 (namiesto 16,277)
Deficit: 0,952 (namiesto 3,746)

čo predpokladám, že nejako tak podobne ste tipovali. Ako je vôbec možné zostaviť takto markantne nekorešpondujúci graf? Spätným prepočtom som zistil, že jednoducho. V pomere sú totiž nie sú plochy tých kruhov, ale ich priemery! Kto si ale pri pozeraní kruhov začne dávať do súvislosti ich priemery (alebo polomery), pokiaľ tam nie sú vyznačené (alebo aj keby boli)? Rovnako tak sa pozrite na nasledujúci graf so smetnými košmi a porovnajte so stĺpcovým grafom s takými istými hodnotami.

graf6.JPG
[1] (graf6) Lavína odpadkov na pôvodnom grafe opticky narastá, pri stĺpcovom vyjadrení skôr stráca dych. Okrem toho, zatiaľ čo číselne narástlo v rokoch 1952 až 1984 množstvo odpadu 5,6-krát, fiktívny objem smetného koša úplne vpravo je zhruba 17-krát väčší než koša predstavujúceho rok 1952.

Keď človek vidí, že sa obrázky reprezentujúce hodnoty líšia v jednom rozmere (stĺpy, vodorovné hranoly, valce, pyramídy, obdĺžniky s rovnakou základňou) tak si vtedy vytvorí správnu predstavu, keď hodnoty sú v pomere veľkosti toho rozmeru.

graf7.JPG
(graf7)
Keď človek vidí dvojrozmerné útvary, v mozgu porovnáva ich plochy. Preto u takýchto útvarov zdvojnásobenie oboch rozmerov vyvoláva u čitateľa predstavu štyrikrát väčšiu.

graf8.JPG
(graf8)
Keď človek vidí obrázok trojrozmerného predmetu, tak si ho predstaví ako reálny predmet. Zdvojnásobenie každého rozmeru má za následok osemnásobne väčšiu predstavu.

graf9.JPG
(graf9)
Hlavnou úlohou grafu je vyvolať predstavu, takže keď by som niekomu chcel nahovoriť, že množstvo odpadu extrémne rastie, ukázal by som mu práve ten graf so smetiakmi. Grafy zobrazujúce nejakých panáčikov, domčeky, autíčka atd. (čiže trojrozmerné prvky) sú najideálnejšie na vsugerovanie nejakého názoru. Práve pri nich treba byť najopatrnejší. Ako napísal Francis Bacon [6]: "The human understanding, once it has adopted an opinion, ... draws everything else to support and agree with it." (Keď si ľudské myslienie raz osvojí nejaký názor, bude priťahovať všetko, čo ho podporuje a súhlasí s ním.)

graf10.gif
[
7] (graf10) Proporcionálne správne spracovaný graf rovnakého typu ako graf1 (výsek z väčšieho grafu) ukazuje, ktoré podstatné mená rečníci oboch amerických strán pred voľbami používali najviac, čiže čo boli ich najčastejšie témy. Zároveň spĺňa kritéria prehľadnosti a odporučil by som ho slovenským novinárom za vzor.

Tak ako som v predchádzajúcich článkoch upozorňoval, s percentami sa dajú vykúzliť aj paradoxné veci a preto treba byť obzvlášť opatrný vždy, keď sa začnú spomínať. Jeden vymyslený a dostatočne odstrašujúci príklad za všetky.

Predstavte si, že maturitu z angličtiny obtiažnosti A robilo 9600 študentov (z toho 2400 dievčat a 7200 chlapcov) a obtiažnosti B 6800 maturantov (5100 dievčat a 1700 chlapcov). V A-teste zmaturovalo 1920 dievčat (z 2400=80%) a 2880 chlapcov (zo 7200=40%), ostatní vyleteli. V B-teste zmaturovalo 3570 dievčat (z 5100=70%) a 510 chlapcov (z 1700=30%), ostatných čakal reparát. Otázka znie, ktorá obtiažnosť skončila lepšie? [2]

Dievčatá mali v áčku úspešnosť 80%, v béčku 70%. Chlapci v áčku 40%, v béčku iba 30%. Žiadalo by sa povedať, že predsa medzi oboma pohlavími bol A-test úspešnejší, takže ten zjavne dopadol lepšie. No, lenže keď si spočítame všetky výsledky, tak A-test spravilo 4800 z 9600 študentov, čo je presne 50% a B-test 4080 z 6800, čo je 60%. Odrazu je výsledok opačný, stačí len zmeniť uhol pohľadu. A tí, čo sa vám budú snažiť niečo nahovoriť, budú zaručene vedieť aký pohľad zvoliť, aby ste sa pre nich správne rozhodli.

Percentá sa radi využívajú na tzv. koláčové grafy. Celok (koláč) sa rozdelí na dieliky podľa percentuálneho podielu. Prvé na čo treba zamerať pozornosť je, či majú jednotlivé časti uvedené aj údaje. Ak nie, nedá sa skontrolovať, môžme ho vyhodiť. Ak áno, aj tak nás môžu okabátiť. Najprimitívnejšie triky sú nedať celý koláč ako 100% alebo neúmerne zväčšiť jednu časť. Aj také sa nájdu a dokonca väčšina ľudí na to nepríde, hlavne pokiaľ na prezretie je málo času (čo býva hlavne v televíznom spravodajstve). Jeden taký graf sa ocitol v internetovom vydaní SME a upozornil na neho pred časom iný bloger.

graf11.JPG
[8] (graf11)

Dokopy dáva nádherných 257,3%. Chyba je tu v tom, že autor porovnával už ani nie hrušky s jablkami, ale celý zelovoc. Každé uvedené percento má totiž iný základ (inak povedané, pre každý uvedený percentuálny údaj predstavuje 100% iný počet voličov). V tlačenom vydaní nebol ako koláčový, ale ako stĺpcový, čo síce odborník Gabriel Šípoš hodnotil ako názornejšie, ja by som si s ním ale dovolil nesúhlasiť. Základnú chybu vidím v tom, že by sa v grafe nemali porovnávať percentuálne vyjadrenia, ktoré nemajú rovnaký základ, až na niekoľko málo výnimiek a aj v nich na ne upozorniť (vysvetlím neskôr). Mali sme to v tom príklade s maturitou. Raz sme mali základ percent dievčatá, raz chlapcov, spravili sme z toho očividný záver, ktorý ale bol chybný. A to boli dva rôzne základy, tu ich máme osem. Alebo inak povedané, môžme povedať, že HZDS má veľký podiel starších voličov, SDKÚ má malý podiel starších v rámci svojej voličskej základne - stále porovnávame v rámci strany. Ale už sa nedá jednoznačne povedať, že HZDS oslovuje oproti SDKÚ viac starších ľudí. Volebný výsledok HZDS bol približne 110 tisíc hlasov, SDKÚ 390 tisíc. Ak si zoberieme skupinu ľudí nad 55 rokov, tak podľa toho prieskumu približne 52.000 z nich volilo HZDS a 106.000 SDKÚ, čo je asi dvakrát viac. Toto ale človek nevyčíta ani zo stĺpcového grafu, pritom zrovna k výrokom typu: HZDS volí najviac seniorov, taký graf vyslovene zvádza. Rozdiel je len v tom, že pri tom koláči si hneď každý povie, že je to somarina, pri tom stĺpcovom ale nie je tak markantné, že tam iné dôležité údaje chýbajú.

Iným nebezpečenstvom je, keď sa niečo za koláčový graf vydáva.

graf12.JPG
[9] (graf12)

V televízii sa to objaví na pár sekúnd a vy si spravíte záver: Ľudia utekajú z Dôvery a idú do Apolla. V prvom rade nejde o graf, lebo podiel poisťovní na trhu nie je rovnomerný. V tej rýchlosti to ale nepostrehnete. V skutočnosti, do obrázku napísali počet prichádzajúcich ľudí do Apolla a počet odchádzajúcich ľudí z Dôvery. Že odišli aj nejakí ľudia z Apolla a že aj do Dôvery nejakí prišli, sa na tom výtvarnom diele nespomína. Keby som bol šéfom Apolla a chcel by som pritiahnúť nejakých klientov z Dôvery na svoju stranu, lepšie by som to nevymyslel.

graf13.JPG
[4](graf13) Nie každý graf predstavuje hneď to, na čo myslíme. Občas je to výkres. :-)
Preklad:
- "Razenie napreduje horšie, ako sme mysleli, pane."
- "Nemusíte mať obavy, veci nebývajú až tak zlé ako vyzerajú na papieri."

graf14.JPG
[10] (graf14)
Pri tomto grafe o facebooku upozorním na úskalia pri zbere dát popisované v predchádzajúcich článkoch. Jedná sa totiž o dáta, ktoré sú používatelia ochotní zdielať. Je pomerne veľké množstvo ľudí, ktorí netvrdia pravdu, je veľa prípadov, keď má jeden človek viac kont. Jedná sa síce o veľký súbor, ale ťažko odhadnúť, koľko percent ľudí všetky údaje nezdieľa, nakoľko je ten zvyšok reprezentatívnou vzorkou, či sa tie klamlivé údaje aspoň čiastočne vykompenzujú a koľko údajov je tam započítaných viackrát.

Čo ma ale zaujalo je graf o náraste užívateľov. Zase je to totiž splietanie percent s rôznymi základmi. Že v Iraku za posledné mesiace vzrástol počet prihlásených o 52% mi nehovorí nič o obľube facebooku v Iraku, ani o objavení facebooku irackým pospolitým ľudom, pokiaľ neviem, či ten nárast o 52% predstavuje z 25 na 38 ľudí alebo z 1.000.000 na 1.520.000 ľudí. Informačná hodnota toho grafu je teda mizivá.

Všimnite si dva nasledujúce grafy.

graf15.JPG
[5] (graf15)
Prvý dojem je ten, že dlh verejnej správy sa približne od roku 2006 zdvojnásobil, nahneváme sa na Fica a ideme ďalej. Pri podrobnejšom skúmaní ale zistíme, že tá najspodnejšia čiara je 20% HDP a nie nula. Čiže nejedná sa o zdvojnásobenie (kto z vás si to všimol hneď?). Navyše v každom roku bolo HDP iné, čiže ono nejde o vývin samotného dlhu ako sa nás snaží presvedčiť nadpis, ale o vývin jeho pomeru k HDP (čo je podstatný rozdiel). To je údaj získaný z dvoch primárnych údajov - z výšky dlhu a vývoja HDP - pričom nám to ale nehovorí nič o tých dvoch samotných. Je totiž možné, že dlh klesal a HDP klesalo ešte rýchlejšie, je však možný  aj scenár, že dlh astronomicky rástol a HDP rástlo pomalšie a neúrekom možností medzi týmito extrémami. Pomer dlhu k HDP hovorí dosť o hospodárení vlády a v tomto smere ani nevadí, že každý rok je to percento počítané z iného základu, ale nehovorí to nič o samotnom nominálnom dlhu. Na okraj: všimnite si, že hoci sa jedná o výsek z tej istej infografiky zo SME ako graf 2, tu už sú zrazu hodnoty pre rok 2010 nad sebou a vpravo už deficit nie je písaný s mínusom.

Vo väčšine prípadov ťažko možno hovoriť o nejakých chybách v klasickom ponímaní, skôr sa na to hodí výraz profesora Yaleskej univerzity Edwarda Tufteho [3] graphics that fail to tell the truth. Graf, ktorý zlyhal v znázornení pravdy. Čitateľ si z neho odniesol myšlienku, ktorá s realitou nekorešpondovala alebo tú realitu musel v grafe dlho hľadať. Zároveň Tufte upozorňuje, že častokrát ani nejde o nejaké zámerné vmanipulovanie názoru, ale skôr o nedostatočnú kvalifikáciu grafikov v oblasti spracovania dát, čo spôsobuje, že väčšiu váhu prikladajú estetickej stránke grafu a prilákaniu pozornosti na úkor informačnej funkcie. Ja s ním po prezretí množstva grafov (z ktorých som vybral do článku iba niektoré) súhlasím, skoro v každom grafe bolo niečo, čo pochopenie informácii zbytočne komplikovalo. Pozrite napr. časovú os v tomto grafe a porovnajte ju s vyznačenými dôležitými dátumami. Pozrite ako v nadpise juan klesá, ale samotný graf stúpa a ako ho podľa textu v roku 2008 čínska národná banka fixovala "na úrovni 6,83 dolára" (namiesto 6,83 juanu za dolár). Ako v tomto grafe sú v legende panáčikovia rovnako veľkí, v grafe ale majú rôznu, absolútne neproporciálnu, veľkosť (lebo interval má rovnakú veľkosť, čo nerozlišuje medzi 5,1% a 9,9%). Navyše slovenský vyzerá opticky väčší ako rovnako veľký maďarský, lebo ten stojí hneď vedľa obrovského rumunského. To sú všetko veci, ktoré pochopenie grafu sťažujú.

Pôvodne som sa chcel ešte venovať aj pochybným extrapoláciam a katastrofickým scenárom, ktoré z nich ich autori získavajú, ale ukázalo sa, že je to tak nesmierne obľúbený segment, že trocha bližší pohľad by neúmerne predĺžil tento už aj tak extrémne dlhý článok na nečitateľnú masu znakov.

Ďakujem vám za pozornosť a venovaný čas a dúfam, že vám môj článok niečo dal.

Zdroje:
[1] KRAMER,W.: So lügt man mit der Statistik; Piper Verlag, 11. vydanie, München, 2008, str. 118
[2] Príklad je inšpirovaný. TASCHNER, R.: Der Zahlen gigantische Schatten; Deutscher Taschenbuch Verlag, München, 2009
[3] TUFTE, E.R.: The Visual Display of Quantitative Information, Chesire 1997; http://www.edwardtufte.com/tufte/books_vdqi

[4] Tunnels & Tunneling International, Február 2010

[5] sme.sk: http://ekonomika.sme.sk/c/5574327/rozpocet-chce-znizit-zadlzenie.html
[6] todayinsci.com: http://www.todayinsci.com/B/Bacon_Francis/BaconFrancis-Quotations.htm, pôvodne v latinčine v knihe BACON,F.: Novum Organum, 1620
[7] nytimes.com: http://www.nytimes.com/interactive/2008/09/04/us/politics/20080905_WORDS_GRAPHIC.html
[8] Slovak press watch: http://spw.blog.sme.sk/c/229322/STV-zavadza-ze-jej-spravy-su-podla-MVK-najdoveryhodnejsie.html
[9] free.perohryz.eu: http://free.perohryz.eu/kolacovy-graf-tyzdna-gabo-Sipos
[10] sme.sk: http://www.sme.sk/c/5479042/facebook-na-slovensku-a-vo-svete.html

Páčil sa Vám tento článok? Pridajte si blogera medzi obľúbených a my Vám pošleme email keď napíše ďalší článok
Pridaj k obľúbeným

Hlavné správy

DOMOV

Návrat Ščurka z basy k hokeju: vražda, klamstvá aj podozrenie z korupcie

Pôvodne mu hrozilo až 20 rokov. Prečo dostal hokejista Ščurko za brutálnu vraždu rozhodcu Mareka Liptaja len mierny trest.

SVET

Mexiko ničí ďalšie zemetrasenie. Má už 226 obetí

Tisíce ľudí utekali ulicami, padali aj budovy. Medzi obeťami sú aj deti.

ŠPORT

Saganov debut na MS: žalúdočné problémy a hnev

Sagana čakajú ôsme majstrovstvá sveta.


Už ste čítali?