Jak nás jiní klamou statistikou a my se necháme

Sbírka několika typických příkladů, na které se všichni denně v novinách chytáme. Je velmi obtížné správně interpretovat statistiku; je strašně jednoduché se splést.

Velikost vzorku, rozptyl a nejlepších 10 - i Bill Gates někdy udělá chybu

Koncem devadesátých let probíhala ve Spojených státech debata, jak vylepšit tamní základní školství. Podívali se na výsledky škol a zjistily, že malé mají lepší výsledky. V jednom státě například zjistili, že za 3 roky se 27% nejmenších škol umístilo v Top 25, zatímco z těch největších se do nejlepší pětadvacítky dostalo jen 1%. Na základě tohoto průzkumu například nadace Billa Gatese utratila přes miliardu dolarů na rozdělování velkých škol a podobné aktivity. Má to jeden problém: malé školy vůbec nejsou lepší. Kde se stala chyba?

Howard Wainer označil jako nejnebezpečnější rovnici týkající se rozptylu průměru vzorku. Vyberte náhodného studenta a zeptejte se na jeho známku z matematiky. Získáte všechny možné odpovědi v rozmezí 1-5. Nyní vyberte náhodně skupinu pěti studentů a spočítejte průměr jejich známek z matematiky. Průměr "1" a průměr "5" bude vzácnější, ale pořád se k němu občas dostanete. Vyberte náhodně 1000 studentů a spočítejte průměr jejich známek z matematiky. Budete-li pokus opakovat, zjistíte, že dostáváte stále téměř stejné číslo. Čím větší vzorek, tím méně bude spočítaný průměr "létat". Na okrajích (samé jedničky, samé pětky) se budou objevovat menší skupiny. A tak se také stalo - nejmenší školy sice velmi často obhajovaly stupně vítězů, ale stejně často seděly na posledních místech.

Podobný jev můžeme pozorovat při prezentaci výsledků maturit nanečisto. V testu se dočteme, že nejlepší výsledky mají kraje Vysočina, Jihočeský a Pardubický. V každém z těchto krajů je ale různý počet škol, v každém z nich je jiné i zastoupení různých typů škol. Bez těchto čísel těžko dojít k nějakým závěrům; jako určitou pomocnou proměnnou můžeme vzít statistiku počtu dětí do 15ti let (která ale bohužel asi nebude přesně odpovídat počtu středoškoláků v kraji); nejhorším krajem se stal kraj Karlovarský, který má suverénně nejméně obyvatel. Nejlepším krajem se stal kraj Vysočina, který je třetím nejmenším krajem. Negativní část je plošší, tam se překvapivě objevují velké kraje jako ústecký a moravskoslezský; může to být způsobeno nižším počtem středoškoláků navzdory velikosti těchto krajů. Budeme si muset počkat na celkové statistiky, zda se bude rozptyl pohybovat podle toho, jak bychom mohli očekávat.

O 24% vyšší riziko rakoviny u pasivních kuřáků. Hodně nebo málo?

Podle amerických statistik se každý rok u cca 17 000 nekuřáků diagnostikuje rakovina plic, z čehož je až 3.000 důsledkem pasivního kouření. Trochu zjednodušeně (ale holt nemáme žádné další informace) spočítáme 15.000 nekuřáků /300 milionů  * 70 let = 0,0028. 24% z 0,0028 je 0,00067. Aneb pravděpodobnost, že si v důsledku pasivního kouření uženete rakovinu plic (tzn. život v domácnosti s kuřákem nebo dlouhodobá práce v zakouřeném prostředí, nikoliv jen občasná návštěva zakouřené restaurace)  je celých 0,07%.

Na stránkách stopkouření se dále dočteme, že rakovina nosních dutin je dokonce 3x (!!) častější u pasivních kuřáků než u naprostých nekuřáků. Ovšem 3x malé číslo je pořád malé číslo; v tomto případě je riziko vyvolané pasivním kouřením rovno neuvěřitelným 0,04%.

Podmíněná pravděpodobnost - opravdu máte tu nemoc?

Ministerstvo zdravotnictví dostalo test na nemoc X. Test funguje s 99.9% úspěšností - z 1000 nemocných pouze jednoho označí za zdravého, z 1000 zdravých pouze jednoho označí za nemocného. Nemoc X je velmi řídká, dá se očekávat u jednoho člověka z 100 000, nicméně i tak ministerstvo zvažuje plošné použití testu.

Dostavíte se tedy na test a s hrůzou zjistíte, že test vyšel pozitivně. Jaká je pravděpodobnost, že jste skutečně nemocní?

V České republice je 10 milionů lidí. 100 lidí zřejmě trpí nemocí X, test jich označil 100. Z těch ostatních zdravých lidí označil test 10 000 lidí za nemocné - 0,1%. Celkem test označil 10 100 lidí, z toho je 100 doopravdy nemocných. Pravděpodobnost, že jste nemocní, je pouhé 1%.

I poměrně dobré testy na velmi řídká onemocnění je nesmysl používat plošně; musí být vždy použita v souvislosti s dalšími důkazy onemocnění, jinak jsou výsledky testu často naprosto neprůkazné.

Korelace není kauzalita - je pasivní kouření faktorem pro vznik rakoviny děložního čípku?

Rakovina děložního čípku je v drtivé většina asociována s infekcí papilomaviru; papilomavir se přenáší pohlavním stykem. Ženy, které často mění partnera nebo ženy jejichž partner jim je nevěrný tak mají vyšší riziko nákazy.

Provedeme-li tedy porovnání skupiny žen, které mají vyšší promiskuitu (nebo jejich partner), dopočítáme se vyššího rizika nákazy než u skupiny žen, které jsou sexuálně neaktivní nebo nestřídají partnery. Kuřáci jako skupina vykazují vyšší promiskuitu než zbytek populace (prostitutky většinou kouří; řádové sestry nikoliv). Stejně tak uživatelky antikoncepčních pilulek - logicky využívají méně jiné způsoby antikoncepce zabraňující infekci papillomavirem.

Bylo by velmi podivné, pokud bychom nenašli korelaci mezi využíváním hormonální antikoncepce a rakovinou děložního čípku; stejně tak by bylo podivné, pokud bychom nenašli korelaci s kouřením nebo pasivním kouřením. Zda kouření nebo antikoncepce zvyšuje riziko onemocnění je úplně jiná otázka a odpověď na ni bude pravděpodobně negativní. Navzdory tomu, co se dočtete na internetu.

P-value aneb je někdo doma?

Pravděpodobnost, že se u vás doma nesvítí, když tam nikdo není, je 95%. Pravděpodobnost, že se u vás svítí, když tam nikdo není, je 5% (občas zapomenete zhasnout, když odcházíte). Přijdete domů a zjistíte, že se tam svítí. Jaká je pravděpodobnost, že je někdo doma?

Jak kdy; pokud žijete sami, nejspíš velmi malá. Pokud máte spolubydlícího, bude naopak docela velká. Mnoho lidí (a bohužel i vědců) však na podobnou otázku odpoví zcela chybně: 95%. Budete-li totiž chodit domů a zjistíte, že poměr nesvícení a svícení je výrazně jiný než 95 zhasnuto ku 5 rozsvíceno, pak si můžete být celkem jisti, že máte spolubydlícího. Pokud však budete obcházet domy po okolí, pak rozhodně neplatí, že by v 95% těch, kde se svítí, někdo byl.

Jeden z typických způsobů jak se testují léky je následující: vyberete dvě náhodné skupiny pacientů, jedna dostane lék, druhá dostane placebo. Sledujete nějaké kritériuem (např. zda se uzdraví). Po určité době porovnáte tyto dvě skupiny (v jedné se uzdravilo 10 lidi, v druhé 12 lidí). Následně vyslovíte hypotézu - typicky "lék je neúčinný" a tuto hypotézu vyvracíte; ptáte se, jak je pravděpodobné, že byste dostali výsledek 10:12 (a horší), pokud by byl lék neúčinný. Pokud je to hodně nepravděpodobné (p-value je menší než 5%), prohlásíte, že jste hypotézu neúčinnosti vyvrátili ("test je statisticky významný") a lék prohlásíte za účinný.

Ne tak rychle. Je-li lék neúčinný (pokud doma nikdo není), je pravděpodobnost výsledku 10:12 (doma se svítí) např. 5%. Změřili jsme 10:12 (doma se svítí). Jaká je pravděpodobnost, že je lék účinný (je někdo doma)? Jak kdy...Pokud ale narazíte na studii, která tvrdí něco hodně neobvyklého, je to pravděpodobně nesmysl. Z nastavení statistické významnosti na 95% totiž vůbec nevyplývá, že by 95% těch studií mělo být správně.

Binomiální rozdělení a rovné postavení žen v norských představenstvech

Pomiňme na chvíli fakt, že rozptyl vlastností mužů je znatelně větší než žen; budeme-li tedy vybírat "několik nejlepších" (nebo několik nejhorších, viz příklad s Billem Gatesem), bude taková skupina obsahovat s vysokou pravděpodobností více mužů. Předpokládejme na chvíli, že ženy jsou úplně stejné jako muži a že norské společnosti naprosto nediskriminují při výběru do svých představenstev.

Jaké procento společností bude - navzdory důsledné nediskriminaci - mít představenstvo, které je proti norským zákonům? Norské zákony přikazují minimálně 40% žen, předpokládejme pro zjednodušení, že představenstvo má 10 lidí.

Úloha je to stejná jako při házení (poctivou) mincí; hodíme 10x mincí a spočítáme, kolikrát nám padne hlava. Pak hodíme znovu 10x a opět spočítáme. Jak často se stane, že nám padne méně než 4x? Odpověď dává binomiální rozdělení a zní ~17%. Čísla se mohou snížit díky zaokrouhlování při změně počtů představenstva (kolik tam musí být žen, když 40% je 3,6 ženy), ale pořád se pohybujeme v rozmezí 10-15%. Dokonce i v naprosto nediskriminující společnosti tak bude 10-15% firem nuceno vyměnit členy v představenstvu.

Potom tedy proto; zákaz kouření na veřejných místech v Británii vedl k výraznému poklesu infarktů

V Anglii byl od 1. července 2007 zaveden zákaz kouření ve veřejných místnostech. Vědci, kteří zkoumali statistiky nemocných v následujícím roce, zjistili, že počet osob, přijatých do nemocnice s infartkem, poklesl o 1200.

Posuďte sami - účinnost přímo zázračná a viditelná na první pohled. Pro pořádek dodávám, že všude jinde (Skotsko, Wales, Irsko, Austrálie, Nový Zéland) vypadají ty grafy v podstatě stejně.

Tyto a další statistické triky s námi byly, jsou a budou. Alespoň ty jednodušší bychom se mohli naučit poznat.

 

Autor: Ondřej Palkovský | úterý 2.11.2010 8:00 | karma článku: 24,97 | přečteno: 2823x