V úvodním článku Naučte se používat statistiku: Proč ji při studiu potřebujeme a jak začít jsme si ukázali základy statistiky. Tentokrát se zaměříme na popisnou statistiku.
Druhy popisné statistiky volíme podle toho, jaký máme typ proměnné – kvalitativní (kam patří ordinální a nominální) a kvantitativní (což jsou intervalové a poměrové). O zmíněných čtyřech základních typech jsme psali v předchozím článku série, dnes už budeme s daty pracovat.
Četnosti
Četnost nám říká, kolikrát se ta která zjištěná hodnota proměnné objevuje v našem vzorku. Nejjednodušší je to u binární proměnné, podtypu nominální s pouhými dvěma možnostmi: Kupříkladu zjišťujeme, kolik dětí se narodilo za jeden den v porodnici, a chceme se podívat na to, kolik bylo novorozenců každého pohlaví. Zjistíme třeba, že z osmdesáti dětí bylo čtyřicet dva chlapečků a třicet osm holčiček – máme četnosti chlapců a dívek v souboru dat. Můžeme i chtít vědět, kolik je to procent – tomu se říká relativní četnost. V našem příkladu jsou relativní četnosti 52,5 % chlapců a 47,5 % dívek. Nejčetnější hodnota (zde chlapec, ale uvádět tuto statistiku u binárních proměnných celkem nemá smysl) se nazývá modus.
Četnosti jsou vhodné pro nominální a ordinální proměnné – pohlaví, úroveň vzdělání, zdravotní stav aj. Pro intervalové a poměrové (zjednodušeně řečeno číselné, i když pozor – číselnými kódy můžeme znázorňovat i hodnoty kvalitativních proměnných, ale u nich se pak jedná pouze o kód a ne samotnou hodnotu) proměnné se v případě četností hodí použít četnosti různých intervalů (například kolik lidí má výšku 160 až 165 cm, kolik 165,1 až 170 cm atd.), které graficky znázorníme histogramem.
Míry polohy a variability
Kvantitativní proměnné nám ale nabízejí daleko více možností než použití četností; nejjednodušší údaje, které můžeme ze vzorku dat číselné proměnné zjistit, jsou minimum, maximum a průměr, který všichni umíme spočítat už ze základní školy. Další velmi důležitou hodnotou je medián – prostřední hodnota ze všech našich dat. U vzorku s patnácti pozorováními by tedy šlo o osmé, kdybychom si je seřadili od nejmenší po největší. Pokud bychom měli šestnáct pozorování, byl by medián průměr mezi osmým a devátým. Medián takto odděluje polovinu pozorování s největšími hodnotami od poloviny s nejmenšími, a je proto v mnoha případech velmi dobrým a široce používaným ukazatelem.
Dá se říci, že medián je percentil padesáti procent. Někdy ale chceme znát i kvartily, tedy percentily pro dvacet pět procent. Dolní kvartil odděluje čtvrtinu nejmenších dat od zbytku, horní z opačné strany vyděluje čtvrtinu nejvyšších. „Prostřední“ kvartil by byl logicky medián a odděloval by od sebe dvě „prostřední čtvrtiny“. Na grafech zvaných boxplot, tedy krabicový graf, často vídáme znázorněny v krabici právě hodnoty od dolního do horního kvartilu, přičemž liniemi vybíhajícími z boxu jsou pak znázorněny minimum a maximum.
Tím jsme si ukázali základní míry polohy; jsou tu ale ještě míry variability dat. Rozpětí získáme jednoduše odečtením minima od maxima, kvartilové rozpětí odečtením hodnoty dolního od horního kvartilu.
Směrodatná odchylka je průměrná odchylka od průměru – například pokud máme pozorování, která mají všechna hodnotu 20, je průměr 20 a směrodatná odchylka 0, žádné pozorování se totiž od průměru neliší. Kdybychom měli jen dvě pozorování s hodnotami dva a čtyři, průměr je tři a směrodatná odchylka jedna – obě pozorování se od průměru liší o jedna, průměr z toho je tedy jedna. Směrodatná odchylka na druhou nám dává rozptyl.
Co máme v jaké situaci použít?
Ve většině situací samozřejmě nemůžeme čtenáře či posluchače zahltit daty a předložit jim veškerou dostupnou popisnou statistiku našeho souboru. Musíme si pečlivě vybrat několik údajů, ze kterých si o daném vzorku dat lidé budou moci udělat nejlepší představu. U kvalitativních proměnných je to celkem jednoduché: Uvádíme četnosti nebo relativní četnosti. Někdy se u kvantitativních proměnných nedá jednoznačně říci, které statistiky jsou nejvhodnější, a pomůže až zkušenost; jindy se ale jedná o poměrně jednoznačnou volbu. Nejčastěji se uvádí průměr nebo medián plus horní a dolní kvartil, místo kvartilů občas minimum a maximum. Je zvykem také uvádět směrodatnou odchylku nebo rozptyl – z jednoho už si každý dopočítá druhé.
Nyní se vracíme k úvodnímu příkladu popisné statistiky: průměrnému platu v republice. Kdykoli si chceme zjistit něco o platech v ČR, jako první na nás vyskočí průměr. Je v tomto případě průměr dobrý ukazatel reality? Statistik by s ním rozhodně spokojen nebyl; průměr se nám hodí u poměrně homogenního vzorku dat, ale s údaji od tisíců po miliony nám o typickém platu mnohem více řekne medián, tedy prostřední hodnota (oddělí nám polovinu lidí s nejnižšími platy od poloviny s nejvyššími), a pak také modus, tedy nejčastější hodnota (v jeho případě by ovšem bylo užitečné třeba zaokrouhlit všechny platy dolů na tisíce, aby se nám údaje nelišily třeba o jednu korunu a modus odpovídal rozmezí mezi jednotlivými tisíci). Když už chceme uvádět průměr, hodí se zmínit i kvartily a směrodatnou odchylku. To se ovšem v tisku příliš často nedočteme. Někdy se tak můžeme setkat se sice matematicky správnými, ale lehce zavádějícími údaji. I proto je dobré mít alespoň úplné základy statistiky a vědět, že pouhý průměr není všechno a nemusí o vzorku dat vypovídat tak dobře jako některé jiné ukazatele.
Tím jsme si rychle představili úplné základy popisné statistiky; v příští části seriálu už nás čekají statistické testy.