Naučte se používat statistiku: Popisná statistika

Popisná statistika nám umožňuje sdělit dalším lidem podstatné informace o našem souboru dat, aniž bychom jim museli všechna data předávat. V novinách a na internetu se často dočteme, jaký je třeba průměrný plat v České republice. To je také popisná statistika; na uvedený příklad se brzy ještě podíváme blíže.

V úvodním článku Naučte se používat statistiku: Proč ji při studiu potřebujeme a jak začít jsme si ukázali základy statistiky. Tentokrát se zaměříme na popisnou statistiku.
Druhy popisné statistiky volíme podle toho, jaký máme typ proměnné – kvalitativní (kam patří ordinální a nominální) a kvantitativní (což jsou intervalové a poměrové). O zmíněných čtyřech základních typech jsme psali v předchozím článku série, dnes už budeme s daty pracovat.

Četnosti

Četnost nám říká, kolikrát se ta která zjištěná hodnota proměnné objevuje v našem vzorku. Nejjednodušší je to u binární proměnné, podtypu nominální s pouhými dvěma možnostmi: Kupříkladu zjišťujeme, kolik dětí se narodilo za jeden den v porodnici, a chceme se podívat na to, kolik bylo novorozenců každého pohlaví. Zjistíme třeba, že z osmdesáti dětí bylo čtyřicet dva chlapečků a třicet osm holčiček – máme četnosti chlapců a dívek v souboru dat. Můžeme i chtít vědět, kolik je to procent – tomu se říká relativní četnost. V našem příkladu jsou relativní četnosti 52,5 % chlapců a 47,5 % dívek. Nejčetnější hodnota (zde chlapec, ale uvádět tuto statistiku u binárních proměnných celkem nemá smysl) se nazývá modus.

Četnosti jsou vhodné pro nominální a ordinální proměnné – pohlaví, úroveň vzdělání, zdravotní stav aj. Pro intervalové a poměrové (zjednodušeně řečeno číselné, i když pozor – číselnými kódy můžeme znázorňovat i hodnoty kvalitativních proměnných, ale u nich se pak jedná pouze o kód a ne samotnou hodnotu) proměnné se v případě četností hodí použít četnosti různých intervalů (například kolik lidí má výšku 160 až 165 cm, kolik 165,1 až 170 cm atd.), které graficky znázorníme histogramem.

Míry polohy a variability

Kvantitativní proměnné nám ale nabízejí daleko více možností než použití četností; nejjednodušší údaje, které můžeme ze vzorku dat číselné proměnné zjistit, jsou minimum, maximum a průměr, který všichni umíme spočítat už ze základní školy. Další velmi důležitou hodnotou je medián – prostřední hodnota ze všech našich dat. U vzorku s patnácti pozorováními by tedy šlo o osmé, kdybychom si je seřadili od nejmenší po největší. Pokud bychom měli šestnáct pozorování, byl by medián průměr mezi osmým a devátým. Medián takto odděluje polovinu pozorování s největšími hodnotami od poloviny s nejmenšími, a je proto v mnoha případech velmi dobrým a široce používaným ukazatelem.

Dá se říci, že medián je percentil padesáti procent. Někdy ale chceme znát i kvartily, tedy percentily pro dvacet pět procent. Dolní kvartil odděluje čtvrtinu nejmenších dat od zbytku, horní z opačné strany vyděluje čtvrtinu nejvyšších. „Prostřední“ kvartil by byl logicky medián a odděloval by od sebe dvě „prostřední čtvrtiny“. Na grafech zvaných boxplot, tedy krabicový graf, často vídáme znázorněny v krabici právě hodnoty od dolního do horního kvartilu, přičemž liniemi vybíhajícími z boxu jsou pak znázorněny minimum a maximum.

Tím jsme si ukázali základní míry polohy; jsou tu ale ještě míry variability dat. Rozpětí získáme jednoduše odečtením minima od maxima, kvartilové rozpětí odečtením hodnoty dolního od horního kvartilu.

Směrodatná odchylka je průměrná odchylka od průměru – například pokud máme pozorování, která mají všechna hodnotu 20, je průměr 20 a směrodatná odchylka 0, žádné pozorování se totiž od průměru neliší. Kdybychom měli jen dvě pozorování s hodnotami dva a čtyři, průměr je tři a směrodatná odchylka jedna – obě pozorování se od průměru liší o jedna, průměr z toho je tedy jedna. Směrodatná odchylka na druhou nám dává rozptyl.

Co máme v jaké situaci použít?

Ve většině situací samozřejmě nemůžeme čtenáře či posluchače zahltit daty a předložit jim veškerou dostupnou popisnou statistiku našeho souboru. Musíme si pečlivě vybrat několik údajů, ze kterých si o daném vzorku dat lidé budou moci udělat nejlepší představu. U kvalitativních proměnných je to celkem jednoduché: Uvádíme četnosti nebo relativní četnosti. Někdy se u kvantitativních proměnných nedá jednoznačně říci, které statistiky jsou nejvhodnější, a pomůže až zkušenost; jindy se ale jedná o poměrně jednoznačnou volbu. Nejčastěji se uvádí průměr nebo medián plus horní a dolní kvartil, místo kvartilů občas minimum a maximum. Je zvykem také uvádět směrodatnou odchylku nebo rozptyl – z jednoho už si každý dopočítá druhé.

Nyní se vracíme k úvodnímu příkladu popisné statistiky: průměrnému platu v republice. Kdykoli si chceme zjistit něco o platech v ČR, jako první na nás vyskočí průměr. Je v tomto případě průměr dobrý ukazatel reality? Statistik by s ním rozhodně spokojen nebyl; průměr se nám hodí u poměrně homogenního vzorku dat, ale s údaji od tisíců po miliony nám o typickém platu mnohem více řekne medián, tedy prostřední hodnota (oddělí nám polovinu lidí s nejnižšími platy od poloviny s nejvyššími), a pak také modus, tedy nejčastější hodnota (v jeho případě by ovšem bylo užitečné třeba zaokrouhlit všechny platy dolů na tisíce, aby se nám údaje nelišily třeba o jednu korunu a modus odpovídal rozmezí mezi jednotlivými tisíci). Když už chceme uvádět průměr, hodí se zmínit i kvartily a směrodatnou odchylku. To se ovšem v tisku příliš často nedočteme. Někdy se tak můžeme setkat se sice matematicky správnými, ale lehce zavádějícími údaji. I proto je dobré mít alespoň úplné základy statistiky a vědět, že pouhý průměr není všechno a nemusí o vzorku dat vypovídat tak dobře jako některé jiné ukazatele.

Tím jsme si rychle představili úplné základy popisné statistiky; v příští části seriálu už nás čekají statistické testy.

Přihlášení

Naučte se používat statistiku: Popisná statistika

Četnosti

Míry polohy a variability

Co máme v jaké situaci použít?

Autor článku

Julie Nováková

Češi propadli trendu rychlého stravování, počet fastfoodů se bude zvyšovat

Vylepšete si životopis během prázdnin!

Finanční plán na studia

Úraz během brigády ihned oznamte!

Letní brigády: Vyžadujte písemnou dohodu