reklama

Verím len tým štatistikám, ktoré som sám zmanipuloval

Ľudia radi používajú nejaké štatistické údaje. Je to veľmi obľúbený spôsob ako podložiť svoje názory niečím, čo sa minimálne tvári seriózne, vedecky. Zároveň je to však prostriedok, ako veľmi ľahko nanútiť čitateľom alebo poslucháčom svoj názor. Aby ste sa nestali tak ľahko zmanipuľovateľnými, ukážem vám v tomto voľnom rozšírení môjho staršieho článku niekoľko fígľov, ako podozrivé údaje a techniky manipulovania rozpoznať.

Písmo: A- | A+
Diskusia  (48)

Magické percentá

Mimoriadne úspešne sa dá kúzliť s percentami. Pri akomkoľvek údaji s percentami by som radil byť mimoriadne obozretný a všímať si dve veci:

  1. Aký veľký je základ, z ktorého boli získané údaje

  2. Na aký základ sa tieto percentá vzťahujú

K prvému bodu iba v krátkosti. Keď sa opýtate niečo troch ľudí a dvaja vám povedia áno, môžete uviesť, že ľudia z 66,7% súhlasia. Ale keď by ste to takto niekam napísali, tak vám nikto neuverí. Určite by som vám poradil ten základ zatajiť. A preto neverte žiadnym údajom, ktoré vám nepovedia, koľko je celok ale uvedú iba percentá.

Druhý bod je tiež veľmi nebezpečný a nie vždy sa dá ľahko identifikovať. Keď vám niekto povie, že iba, povedzme 13,4 % domácností, má viac ako troch členov, znie to smutne. Keď vám dodá údaj, že 48 % domácností tvorí jedna osoba, žiada sa hneď dodať, že takmer polovica ľudí býva sama. A už sme vedľa. 100% domácností neznamená 100% ľudí. Keď v jednej domácnosti býva 10 ľudí a v druhom byte jeden človek, tak polovica domácností pozostáva z jedného obyvateľa, ale iba 9,1% ľudí býva samo. A tento efekt sa prejaví aj na veľkej vzorke a dosť výrazne.

SkryťVypnúť reklamu
Článok pokračuje pod video reklamou

Podivuhodné superpresné čísla

Pápež Urban VIII v roku 1640 zo starozákonných textov vyvodil, že svet bol stvorený v roku 5199 pred Kristom. O desať rokov neskôr írsky arcibiskup Usher (nemýliť si z raperom) určil začiatok sveta na rok 4000 pred našim letopočtom, lebo preukázal, že Urban sa v niektorých veciach mýlil. Nemecký protestantský teológ Phillip Melanchthon stanovil dátum stvorenia na rok 3963 pred Kristom a anglický teológ John Lightwood na 23. októbra 4004 pred Kristom o deviatej hodine ráno. Ako si mohol byť ten posledný tak istý? Ťažko povedať, z najväčšou pravdepodobnosťou však použil klasický trik. Uvedomil si, že presnosť jeho zistení je približne rovnaká ako jeho predchodcov, tak opticky vylepšil svoj výsledok podrobnejším určením - oproti ostatným dátumom to vyzerá akoby celú problematiku poctivo a precízne naštudoval a preto dospel k presnému výsledku. [1], [2]

SkryťVypnúť reklamu
reklama

Rovnakým princípom neuverím wikipédii, že počas prvej svetovej vojny mala belgická armáda straty 58.637 vojakov a umrelo 62.000 belgických civilistov. [5] Ako si však mohla byť belgická armáda (pôvodný autor toho čísla) tak istá, že všetci vojaci v ich štatistikách skutočne zomreli? Či si niektorí nezmenili meno a doklady a nedezertovali? Či niektorí neprebehli na nemeckú stranu? Či jeden vojak nezomrel na zápal slepého čreva, čiže príčina jeho smrti vôbec nesúvisela s vojnou? Hneď by sa to zmenilo na 58.636. Nebolo by z hľadiska čitateľa štatistiky lepšie napísať, že okolo 58.000? Alebo približne 60.000? Určite áno, ale ak belgická armáda má vystupovať ako autorita, ktorá sa o svojich vojakov stará, ďaleko lepšie vyzerá 58.637, lebo vyvoláva zdanie, že vo svojej organizácii nemá bordel. A tým sa čitateľovi tejto štatistiky snaží nenápadne vyvolať názor na ňu samú - čiže ho zmanipulovať. Ďalšia otázka je, že z akého dôvodu sa v tej istej tabuľke nachádza kolonka celkové straty, kde tieto dve čísla, zjavne zaokrúhlené na iné miesto (jedno na jednotky, druhé na tisíce) sú zrazu sčítané a dostávame výsledok: 120.637. To tomu číslu máme veriť?

SkryťVypnúť reklamu
reklama

Ešte jeden príklad na ilustráciu tohoto nenápadného triku. Ak by ste sa pýtali dvoch ľudí, kde je železničná stanica a jeden by vám povedal: "Asi tak tri kilometre rovno, tam na križovatke doprava a po pol kilometri na ľavej strane." A druhý:"Pôjdete 2,7 kilometra rovno a na križovatke doľava a po 450 metroch na ľavej strane." Išli by ste na tej kritickej križovatke doprava alebo doľava?

Veľmi zveličene je to vyjadrené v nasledujúcej myšlienke, ktorú som kdesi čítal:" Povedz človeku, že na nebi je 987604531980 hviezd a uverí ti. Povedz, že lavička je čerstvo natretá a každý si siahne."

Derivujem, derivujem, až kým nezamestnanosť nezačne klesať

SkryťVypnúť reklamu
reklama

Pri správach o vývoji nezamestnanosti v júli 2009 som zachytil takúto vetu: „Generálny riaditeľ ústredia práce Ján Sihelský hovorí, že je to od nového roka najnižší nárast." Keď sa na to pozriete zblízka, zistíte, že rast síce klesol, nezamestnaných je ale aj tak o 7234 viac ako minulý mesiac. Zjavne sa snažil poukázať na aspoň niečo pozitívne. Teraz sa spoločne pozrime, aké zázraky sa s rastami rastu dajú robiť.

Mám firmu s ročným obratom v troch rokoch: 200.000 €, 201.000€ a 202.500€. V druhom roku vzrástol o 0,5%, v treťom o 1,5/201 = 0,746%. Nič moc, ale teraz sa pozriem na rast rastu - po prvom roku vzrástol o 0,5% v druhom o 0,746% - rast rastu mi dáva nádherných 0,246/0,5 = 49,2%!

Iný príklad. Som Minister práce sociálnych vecí a rodiny a v troch po sebe idúcich mesiacoch mám takéto počty uchádzačov o prácu (nezamestnaných): 100.000; 150.000; 210.000. Rast mám v druhom mesiaci (oproti prvému) o 50%, v treťom o 40% (oproti druhému). Dosiahol som pokles rastu (v percentách), ale zároveň rast rastu (v počte nezamestnaných). O čom teda takéto hodnotenie rastu rastu nezamestnaných vypovedá? Pre bežného čitateľa novín absolútne o ničom. Druhá derivácia počtu nezamestnaných podľa času, väčšine obyvateľstva nehovorí nič a pokles rastu, čo je inými slovami to isté, si človek zapamätá iba ako, že niečo v nezamestnanosti pokleslo - a v tom momente ho tí úradníci oblbli.

Ono je to ale oveľa zložitejšie. Keď už štatistici svoje výsledky prezentujú, začnú porovnávať veci raz s minulým rokom raz s predchádzajúcim mesiacom, raz spomenú absolútne čísla, raz percentuálne vyjadrenie, vzápätí potom do toho zakomponujú nejaký pokles rastu a výsledok je ten, že ani sami novinári poriadne nevedia o čom píšu a iba preberú informácie, ktoré im vmanipulujú. Inak by nespomínali poklesy rastu. Mimochodom, keď by niekto z nich bol schopný urobiť tretiu deriváciu, tak by zistil, že v júli bol zaznamenaný rast poklesu rastu nezamestnanosti. O nádherných 38,2%. Navyše nezamestnanosť u nás sledujú dve štátne inštitúcie - Ministerstvo práce sociálnych vecí a rodiny a Štatistický úrad. Zrejme, aby sa mohli kontrolovať a tým efektívne využívať peniaze daňových poplatníkov. O to zarážajúcejšie je, že ich údaje o nezamestnanosti na konci júla 2009 sa líšia o vyše 64.200 osôb (UPSVAR 355.862, Štatistický úrad 291,6 tis.). Istotne je to inou metodikou a inou definíciou nezamestnaného, ale celkový efekt je zjavný - v záplave údajov majú ľudia chaos a nemajú chuť sa tomu podrobnejšie venovať a potom uveria čomukoľvek.

Porovnávam čokoľvek s čímkoľvek

Opatrný treba byť aj keď sa prichádza k nejakým porovnaniam. Tu je paleta trikov pomerne pestrá. Od toho, že porovnávam úplne iné veci, porovnávam veci, ktoré sú inak definované až po rafinované triky keď si špeciálne vyberiem, čo porovnávam.

Občas sa pošťastí dokonca aj to, že vo výskume sa porovná niečo ale niekde medzi výsledkom a oboznámením verejnosti sa to prekvalifikuje na čosi úplne iné. Napríklad pri debate o kvalite slovenských vysokých škôl rektor Univerzity Komenského, František Gahér veľmi rád cituje (napr. [4] ) rebríček Webometrics, kde sa UK skutočne vyskytuje okolo 500 miesta. Tento rebríček ale podľa autorov hodnotí prístup k vedeckým publikáciam danej školy na internete (konkrétne vybrané z [3] "Supporting Open Access initiatives, electronic access to scientific publications and to other academic material are our primary targets."). Inak povedané oblbuje verejnosť rebríčkom, ktorý vôbec nevyjadruje kvalitu, ale v širších súvislostiach okrajovú vec.

Kedysi som sa v škole učil, že najväčšie zásoby pitnej vody v strednej Európe sú na Žitnom ostrove . V Tirolsku sa človek bežne pri studni dočíta, že najväčšie zásoby pitnej vody v strednej Európe sú v Tirolsku. V Bavorsku sa človek z rádia dopočuje, že Bavorsko je jedna z krajín s najväčšími zásobami pitnej vody na svete. Ako je toto možné, že všetci sú najlepší? Jednoducho. Každý chápe pod svojou vetou niečo iné. V Tirolsku sa nepovažuje Slovensko za strednú Európu ale za východnú (takže Slovensko z porovnania vylúčia), my nepovažujeme Bavorsko za samostatnú krajinu (takže my vylúčime Bavorsko), Bavori zase zrejme vidia, že Tirolsko je na tom lepšie, tak vztiahnú porovnanie na celý svet. Navyše Tirolsko počíta do svojich zásob svoje ľadovce, čo v ponímaní bežného Slováka nie je voda ale ľad.

Špecifickou metódou je vybrať si nejaké kritérium, v ktorom sme najlepší a potom toto tvrdenie zovšeobecniť. Nádherným príkladom je letecká lobby, ktorá tvrdí, že letecká doprava je najbezpečnejšia na svete. Je najbezpečnejšia, ak si za kritérium bezpečnosti dopravy zoberieme počet mŕtvych na prepraveného pasiežiera na kilometer. Inak povedané sčítame počet kilometrov, ktoré prejazdil každý cestujúci a zistíme, koľko cestu neprežilo. Keď potom za základ zvolíme rovnaké číslo, tak výjdu nasledovné porovnania (podľa [1]) . Železničná doprava: 9 mŕtvych na 10 miliárd km, Letecká doprava: 3 mŕtvi na 10 miliárd km. To je však iba jeden ukazovateľ v ktorom sa javí letecká doprava bezpečnejšia a zrovna toto je podobná situácia ako pri príklade s domácnosťami a treba použiť trochu zdravého rozumu. Uvažujme, že priemerná dĺžka letu je minimálne desaťnásobne väčšia ako priemerná jazda vlakom. Navyše vlak ide minimálne desaťnásobne pomalšie ako lietadlo. To značí, že ak by sme vztiahli našu pôvodnú úvahu nie na najazdené kilometre, ale na čas, ktorý cestujúci v prostriedku strávi, tak výjde železničná doprava bezpečnejšia. A skutočne, podľa toho istého zdroja [1] je to 7 mŕtvych na 100 miliónov hodín strávených vo vlaku a 24 mŕtvych na 100 miliónov hodín strávených cestou lietadlom. Rovnako by sme dostali bezpečnejšiu železnicu, ak by sme za základnú jednotku zvolili počet jázd. Otázne teraz je, čo chcete považovať za bezpečné. Či vo vás viac vzbudzuje strach to, že sa vám najbližší kilometer cesty niečo stane, alebo že sa vám najbližšiu hodinu niečo stane. Ak to prvé, tak považujete za bezpečnejšie lietadlo, ak to druhé, tak vlak. Ja osobne mám viac strach z toho druhého, ale môžete to považovať za železničnú lobby a manipuláciu. Každopádne zovšeobecnenie stojace na poukazovaní iba na kilometre považujem za zavádzajúce a rezolútny (a zdá sa že neotrasiteľný) záver o bezpečnosti leteckej dopravy za krajne pochybný. 

Dalo by sa písať toho oveľa viac, ale priveľa nových informácii by vás zrejme unudilo, tak dúfam, že toto je tak akurát.

[1] Krämer, W.: So lügt man mit Statistik, Piper Verlag, München, 2000
[2] Souček, L.:Tušenie súvislostí, Tatran, Bratislava, 1984
[3] http://www.webometrics.info/about_rank.html
[4] http://hn.hnonline.sk/2-29255540-k10000_detail-5f
[5] http://en.wikipedia.org/wiki/World_War_I_casualties

Martin Marušic

Martin Marušic

Bloger 
  • Počet článkov:  172
  •  | 
  • Páči sa:  4x

Profesionálny tunelár"Slovo tunelář vymysleli bývalí kvazikomunisté jako součást své předvolební populistické kampaně."Viktor Kožený Zoznam autorových rubrík:  Prihodilo sa miTunelovanieVodné dielaPlanéta ZemHistoria est lux veritatisSlovenská sosajety (vážne)Odpočutékrížom-krážom64 políSlopeme s monitoromMostySúkromnéNezaradené

Prémioví blogeri

Juraj Hipš

Juraj Hipš

12 článkov
Iveta Rall

Iveta Rall

87 článkov
Juraj Karpiš

Juraj Karpiš

1 článok
Martina Hilbertová

Martina Hilbertová

49 článkov
Adam Valček

Adam Valček

14 článkov
reklama
reklama
SkryťZatvoriť reklamu