Statistické grafy

Některé zjištěné (resp. vypočítané) hodnoty mohou být znázorněny graficky. Ke zobrazení rozdělení četností pro kategoriální proměnnou je používán buď graf sloupcový nebo výsečový. V prvním případě výška sloupce představuje počet statistických jednotek s určitou obměnou proměnné (určité kategorie), případně jejich relativní četnost. Ve druhém případě je k dispozici kruh rozdělený na výseče v poměru, v jakém se nacházejí četnosti jednotlivých obměn. Někdy je kruh kreslen s „otvorem“ uprostřed, pak se graf nazývá prstencový.

U spojité proměnné se zjišťuje rozdělení četností podle intervalů hodnot. Grafickým vyjádřením tohoto rozdělení četností je histogram (graf 1). Na rozdíl od sloupcového grafu, v němž jsou při zobrazování četností kategorií pro jednu proměnnou kresleny sloupce odděleny, jsou v histogramu sloupce umístěny těsně vedle sebe, aby byla znázorněna návaznost intervalů. V grafu 1 jsou dále uvedeny tři hodnoty: počet statistických jednotek (N), aritmetický průměr (Mean) a směrodatná odchylka (Std. Dev) vyjadřující variabilitu hodnot.

Graf 1 - Histogram

Různorodost zobrazení histogramu pro různé počty intervalů si můžete ověřit na stránce http://www.ruf.rice.edu/~lane/stat_sim/histogram/index.html. Vztah tvaru histogramu k hodnotám aritmetického průměru a mediánu je ilustrován na stránce http://www.ruf.rice.edu/~lane/stat_sim/descriptive/index.html.

Na rozhraní mezi tabulkami a grafy a na rozhraní mezi zobrazením zdrojových dat a souhrnných údajů (např. četností) se nachází číslicový histogram, který dává přehled o rozdělení četností a přitom jsou v něm v některých případech zobrazeny jednotlivé hodnoty. Tento graf spadá do části statistiky, nazývané průzkumová (explorační) analýza dat, neboť kromě četností v něm mohou být přehledně zobrazeny i další důležité charakteristiky proměnné (např. minimální a maximální hodnota, medián).

Interpretaci číslicového histogramu si vysvětlíme na proměnné, která vyjadřuje cenu vína určité značky (za 0,75 litru) zjišťovanou v různých prodejnách.


Cena vína - Číslicový histogram (Stem and leaf graf)

Četnosti Lodyha & Listy

 2,00 	   4 . 89

 4,00 	   5 . 1334
 
11,00     5 . 55566777899

 5,00     6 . 00233

 4,00     6 . 5778
 
 2,00     7 . 24

 1,00 extrémní (>=80)
 
Lodyha - šířka: 10,00

Každý list: 1 pozorování

Ponechme zpočátku stranou první sloupec čísel a zaměřme se na sloupec umístěný uprostřed výstupu. V našem případě čísla představují desítky, vyskytující se ve zjištěných hodnotách (v podstatě jde o nejvyšší řád, který obsahuje nejnižší hodnota). Do pravého sloupce jsou pak zapisovány druhé platné číslice z každé hodnoty. Jestliže zjištěné hodnoty obsahují pouze dvě platné číslice (jako v našem příkladu), pak máme na malém prostoru zapsány všechny tyto hodnoty. Z výstupu vidíme, že byly zjištěny následující ceny: 48, 49, 51, 53, 53, 54, 55, 55, 55, 56, 56, 57, 57, 57, 58, 59, 59, 60, 60, 62, 63, 63, 65, 67, 67, 68, 72, 74, 80 (odlehlá hodnota, viz níže).

První sloupec obsahuje absolutní četnosti v příslušných intervalech (v našem příkladě máme intervaly 45 - 49, 50 - 54 atd.). Existují různé modifikace tohoto „grafu“, např. zobrazované četnosti mohou být kumulativní, počítané jednak od nejnižších hodnot, jednak od nejvyšších, s výjimkou intervalu, kde se nachází medián. U něho se uvádí absolutní četnost. Také intervaly mohou být stanoveny jiným způsobem.

Pro interaktivní zobrazení číslicového histogramu pro Vámi zadaná data stiskněte nabízené tlačítko. 

Jiným grafem používaným v průzkumové analýze dat je krabičkový graf. Graf 2 opět charakterizuje zjištěné ceny vína.

Graf 2 - Krabičkový graf

Jednotlivé prvky grafu (vodorovné úsečky a bod) znázorňují postupně následující charakteristiky: minimum, dolní kvartil (), medián, tj. prostřední kvartil ( nebo pouze ), horní kvartil (), hodnotu a odlehlou hodnotu 80 (zjištěnou v 29. prodejně), která je větší než předchozí vypočítaná hodnota. Pro upřesnění uvádíme konkrétní hodnoty statistických charakteristik v tabulce.

Při zakreslování samostatných hodnot se obvykle rozlišují hodnoty

Též pro grafické znázorňování četností a statistických charakteristik platí, že předkládaný text je pouze stručným naznačením dané problematiky.