Naučte se používat statistiku: Testování souvislostí

11.06.2012 | , Studentskefinance.cz
STUDENT - NEPOUŽÍVAT


perex-img Zdroj: Finance.cz

V závěrečné části seriálu o statistice si ukážeme, jak testovat souvislosti různých proměnných: Jak se liší dosažená úroveň vzdělání v různých městech? Jsou platy žen a mužů v jedné organizaci v průměru různé? Závisí délka života na tom, v jaké nadmořské výšce člověk žije?

Všechny články ze seriálu naleznete zde: Naučte se používat statistiku.

Dvě kvalitativní proměnné: Kontingenční tabulky

Představme si, že máme za úkol porovnat dosaženou úroveň vzdělání v různých městech České republiky. V obou případech jde o kvalitativní (nečíselné) proměnné. V popisné statistice jim odpovídají četnosti – a testy založené na kontingenčních tabulkách, které zkoumají souvislosti mezi kvalitativními veličinami, pracují právě s četnostmi.

V kontingenční tabulce vidíte sdružené četnosti skupin proměnných (u příkladu s městy například kolik lidí zároveň má vysokoškolské vzdělání a pochází z Brna) a po stranách marginální četnosti – kolik lidí z celého vzorku má základní, střední odborné, střední s maturitou a vyšší vzdělání, kolik lidí pochází ze kterého města. Testy na základě zjištěných marginálních četností porovnávají, zda se významně liší sdružené četnosti zjištěné a takové, které bychom očekávali, kdyby na sobě proměnné vůbec nezávisely. Nejpoužívanější takto pracující test je chí kvadrát test.

Kvalitativní a kvantitativní proměnná: ANOVA a další testy

Dostanete za úkol vypracovat statistiku platů ve velké mezinárodní firmě a máte mimo jiné zjistit, zda se tam nějak liší platy mužů a žen. Abyste se rozhodli, jaký typ testu můžete použít, nejdříve se podívejte, jestli mají platy normální rozložení (v grafu vyjádřené známou Gaussovou křivkou). Pokud ano, můžete použít test ANOVA (ANalysis Of VAriance – analýzu rozptylu). Pokud data normální rozložení nemají, tento předpoklad lze opomenout při velkém počtu pozorování – minimálně několika stech.

ANOVA testuje, zda se významně liší rozptyl číselné veličiny u různých skupin. V grafu ji lze znázornit několika krabicovými grafy pro jednotlivé skupiny. Obecně platí, že pokud se boxy nepřekrývají, rozdíl bude významný, ale samozřejmě to není stoprocentní a je třeba provést test. Opět ho najdete v každém statistickém programu, do nějž jen zadáte číselnou i nominální proměnnou. Jako obvykle, vyjde-li vám p hodnota pod 5 %, je rozdíl mezi skupinami statisticky významný.

Pokud máte poměrně málo dat, která nemají normální rozdělení, dá se pro podobný účel použít Kruskal-Wallisův test; i ten obsahuje naprostá většina programů.

Dvě kvantitativní proměnné: Korelace, regrese

Máme-li dvě číselné veličiny – například délku lidského života a nadmořskou výšku, v níž lidé žijí – a chceme zkoumat jejich souvislost, nejjednodušší je použít korelaci (můžeme ji označit jako regresi, pokud víme, která z proměnných je závislá a která vysvětlující). Existují různé postupy vhodné pro různé situace; mezi nejznámější patří Pearsonova korelace a Spearmanova neparametrická korelace. Liší se zejména v tom, že Pearson počítá přímo s hodnotami obou veličin, kdežto Spearman porovnává pořadí hodnot (kdyby tedy v obou veličinách byly porovnávané dvojice hodnot stejného pořadí, souvislost by byla stoprocentní).

Pearsonův test vám kromě p hodnoty ukazující, zda je souvislost významná, poskytne i korelační koeficient r značící, jak silná je případná závislost. Jeho druhá mocnina nám říká, kolik procent variability jedné proměnné je vysvětleno druhou. Spearmanův test se používá zejména v případech, kdy není závislost lineární, a místo korelačního koeficientu r používá koeficient Spearmanovy neparametrické korelace rho.

Co když za závislost může jiná proměnná?

Zjistili jsme třeba, že se lidé žijící ve vyšších nadmořských výškách dožívají vyššího věku, ale chceme si být jisti, že délku jejich života nezpůsobuje něco úplně jiného než nadmořská výška. Už při designování studie bychom si měli položit otázku, co vše by ještě mohlo zkoumanou proměnnou ovlivnit, a zjistit si i další možné příčiny vyššího věku.

Třetí proměnnou – zde kupříkladu míru znečištění ovzduší – můžeme do modelu zanést jako takzvanou matoucí proměnnou. Můžete se často setkat i s nepřeloženým označením confounder. Většina statistických programů umožňuje nastavit matoucí veličinu a odfiltrovat její efekt – pak byste měli zjistit, za kolik variability v délce života skutečně zodpovídá nadmořská výška bez toho, že výše položená místa bývají obvykle méně znečištěná.

Bleskový exkurz do statistiky ve čtveřici článků, který tímto končí, z nikoho samozřejmě neudělá statistika, ale pomůže svým čtenářům pochytit úplné základy statistického uvažování, hlouběji porozumět statistice prezentované v médiích, lépe nadesignovat vlastní studii i najít bod, od nějž se později budou moci odrazit při snaze o hlubší proniknutí do statistiky a při analýze vlastních dat do závěrečné práce nebo odborného článku.

Autor článku

Julie Nováková  

Články ze sekce: STUDENT - NEPOUŽÍVAT