Některé zjištěné (resp. vypočítané) hodnoty mohou být znázorněny graficky. Ke zobrazení rozdělení četností pro kategoriální proměnnou je používán buď graf sloupcový nebo výsečový. V prvním případě výška sloupce představuje počet statistických jednotek s určitou obměnou proměnné (určité kategorie), případně jejich relativní četnost. Ve druhém případě je k dispozici kruh rozdělený na výseče v poměru, v jakém se nacházejí četnosti jednotlivých obměn. Někdy je kruh kreslen s „otvorem“ uprostřed, pak se graf nazývá prstencový.
U spojité proměnné se zjišťuje rozdělení četností podle intervalů hodnot. Grafickým vyjádřením tohoto rozdělení četností je histogram (graf 1). Na rozdíl od sloupcového grafu, v němž jsou při zobrazování četností kategorií pro jednu proměnnou kresleny sloupce odděleny, jsou v histogramu sloupce umístěny těsně vedle sebe, aby byla znázorněna návaznost intervalů. V grafu 1 jsou dále uvedeny tři hodnoty: počet statistických jednotek (N), aritmetický průměr (Mean) a směrodatná odchylka (Std. Dev) vyjadřující variabilitu hodnot.
Graf 1 - Histogram
Různorodost zobrazení histogramu pro různé počty intervalů si můžete ověřit na stránce http://www.ruf.rice.edu/~lane/stat_sim/histogram/index.html. Vztah tvaru histogramu k hodnotám aritmetického průměru a mediánu je ilustrován na stránce http://www.ruf.rice.edu/~lane/stat_sim/descriptive/index.html.
Na rozhraní mezi tabulkami a grafy a na rozhraní mezi zobrazením zdrojových dat a souhrnných údajů (např. četností) se nachází číslicový histogram, který dává přehled o rozdělení četností a přitom jsou v něm v některých případech zobrazeny jednotlivé hodnoty. Tento graf spadá do části statistiky, nazývané průzkumová (explorační) analýza dat, neboť kromě četností v něm mohou být přehledně zobrazeny i další důležité charakteristiky proměnné (např. minimální a maximální hodnota, medián).
Interpretaci číslicového histogramu si vysvětlíme na proměnné, která vyjadřuje cenu vína určité značky (za 0,75 litru) zjišťovanou v různých prodejnách.
Cena vína - Číslicový histogram (Stem and leaf graf) Četnosti Lodyha & Listy 2,00 4 . 89 4,00 5 . 1334 11,00 5 . 55566777899 5,00 6 . 00233 4,00 6 . 5778 2,00 7 . 24 1,00 extrémní (>=80)Lodyha - šířka: 10,00 Každý list: 1 pozorování
Ponechme zpočátku stranou první sloupec čísel a zaměřme se na sloupec umístěný uprostřed výstupu. V našem případě čísla představují desítky, vyskytující se ve zjištěných hodnotách (v podstatě jde o nejvyšší řád, který obsahuje nejnižší hodnota). Do pravého sloupce jsou pak zapisovány druhé platné číslice z každé hodnoty. Jestliže zjištěné hodnoty obsahují pouze dvě platné číslice (jako v našem příkladu), pak máme na malém prostoru zapsány všechny tyto hodnoty. Z výstupu vidíme, že byly zjištěny následující ceny: 48, 49, 51, 53, 53, 54, 55, 55, 55, 56, 56, 57, 57, 57, 58, 59, 59, 60, 60, 62, 63, 63, 65, 67, 67, 68, 72, 74, 80 (odlehlá hodnota, viz níže).
První sloupec obsahuje absolutní četnosti v příslušných intervalech (v našem příkladě máme intervaly 45 - 49, 50 - 54 atd.). Existují různé modifikace tohoto „grafu“, např. zobrazované četnosti mohou být kumulativní, počítané jednak od nejnižších hodnot, jednak od nejvyšších, s výjimkou intervalu, kde se nachází medián. U něho se uvádí absolutní četnost. Také intervaly mohou být stanoveny jiným způsobem.
Pro interaktivní zobrazení číslicového histogramu pro Vámi zadaná data stiskněte nabízené tlačítko.
Jiným grafem používaným v průzkumové analýze dat je krabičkový graf. Graf 2 opět charakterizuje zjištěné ceny vína.
Graf 2 - Krabičkový graf
Jednotlivé prvky grafu (vodorovné úsečky a bod) znázorňují
postupně následující charakteristiky: minimum, dolní kvartil
(),
medián, tj. prostřední kvartil (
nebo pouze
),
horní kvartil (
),
hodnotu
a odlehlou hodnotu 80 (zjištěnou
v 29. prodejně), která je větší než předchozí vypočítaná
hodnota. Pro upřesnění uvádíme konkrétní hodnoty statistických
charakteristik v tabulce.
Při zakreslování samostatných hodnot se obvykle rozlišují hodnoty
odlehlé, které se nacházejí buď v intervalu od
do
nebo v intervalu od
do
a
extrémní, které jsou menší než
nebo větší než
.
Též pro grafické znázorňování četností a statistických charakteristik platí, že předkládaný text je pouze stručným naznačením dané problematiky.