Při statistické analýze jsou předmětem zkoumání statistické znaky, jako například příjem domácnosti v ČR v lednu 2000, tržba podniku v ČR za třetí čtvrtletí roku 1999 či stupeň spokojenosti obyvatele ČR s životní úrovní v roce 1998. Statistický znak je tedy věcně, prostorově a časově vymezený pojem. Zkoumáme ho u statistických jednotek, kterými jsou například domácnosti, podniky či osoby. Sledované statistické jednotky tvoří statistický soubor. Všechny jednotky určitého druhu (např. všechny čtyřčlenné domácnosti se dvěma dětmi v ČR) tvoří soubor základní (populaci). Ten je v praxi většinou charakterizován na základě údajů zjištěných pouze u vybraných jednotek, které tvoří výběrový statistický soubor.
Proces získávání potřebných údajů se nazývá statistické zjišťování (šetření). Jestliže zkoumáme celý základní soubor, pak jde o zjišťování vyčerpávající. Šetření výběrového souboru označujeme odpovídajícím názvem, tj. jako výběrové.
Kromě výše uvedeného základního přístupu můžeme zjišťovat údaje týkající se jediné statistické jednotky, ale v různých časových obdobích (hodinách, dnech, měsících, čtvrtletích, letech apod.). V tomto případě dostaneme časovou řadu (kurzu koruny, nákladů či tržeb ekonomického subjektu).
V makroekonomickém měřítku jde často o spojení obou zmíněných přístupů. Sledujeme například nejprve statistický znak „tržba“ u statistických jednotek, kterými jsou průmyslové podniky v ČR v lednu 1998. Agregací všech získaných hodnot (v našem případě součtem), získáme jediný údaj. Pokud postup opakujeme v dalších měsících, získáme měsíční časovou řadu tržeb v průmyslu např. za léta 1998 a 1999.
Obdobně můžeme sledovat průměrné roční příjmy určitého typu domácností, kdy agregační funkcí v určitém roce bude aritmetický průměr. Uvedené agregované údaje jsou již vlastně výsledkem statistických výpočtů (součet, průměr).
V ekonomické statistice je používán pojem statistický ukazatel. Tento pojem je používán jednak pro statistické znaky sledované u domácností či podniků (vstupní ukazatele), tak pro agregované údaje (výstupní ukazatele).
Základní klasifikace statistických dat spočívá v jejich členění na
mikrodata, tj. data o jednotlivých statistických jednotkách (obrázky 1 a 2),
makrodata, tzn. agregovaná data (tabulka 1),
metadata, zahrnující popis dat, například definice ukazatelů, číselníky.
Obrázek 1 - Data v tabulce |
Obrázek 2 - Data ve formuláři |
Tabulka 1 - Průměrné příjmy a výdaje na 1 člena domácnosti v roce 1998
Typ domácnosti |
Roční peněžní příjmy (Kč) |
Roční peněžní výdaje (Kč) |
Průměrný počet členů |
Počet domácností |
zaměstnanců |
100 544 |
96 067 |
2,81 |
1 370 |
zaměstnanců s dětmi |
85 791 |
82 282 |
3,58 |
799 |
samostatně činných |
87 077 |
88 807 |
3,17 |
342 |
zemědělců |
80 363 |
78 879 |
3,11 |
327 |
důchodců |
70 152 |
71 076 |
1,49 |
522 |
Ze zmíněného stručného úvodu do problematiky je zřejmé, že ve statistice musíme brát v úvahu různé datové struktury. Základní z nich je datová matice, v níž každý řádek (případ) obsahuje veškerá pozorování (měření) týkající se jedné statistické jednotky a sloupce odpovídají jednotlivým statistickým znakům. Sloupec představuje veličinu, která nabývá různých hodnot, proto se nejčastěji označuje jako proměnná, viz následující schéma.
|
1. proměnná |
2. proměnná |
… |
1. případ |
|
|
|
2. případ |
|
|
|
… |
|
|
|
V současných programových systémech mohou být data vkládána buď do tabulky (obrázek 1), která odpovídá zmíněné datové matici, nebo do formuláře (obrázek 2), v němž jsou vyplňovány údaje odpovídající jedné statistické jednotce. Do sloupců tabulky (resp. tomu odpovídajících políček ve formuláři) můžeme kromě hodnot sledovaných znaků vkládat i doplňující informace, jako je název statistické jednotky či její jednoznačná identifikace (např. IČO nebo rodné číslo), což je důležité pro následnou kontrolu údajů.