Při výběrovém šetření se zjišťují, porovnávají a analyzují vlastnosti souboru, které se vyjádřují statistickými znaky. Zjišťované (šetřené, sledované) znaky jsou zpravidla při každém praktickém zjišťování velmi početné a rozmanité; my se však omezíme na nejjednodušší možné případy, tj. na jeden znak číselný (kvantitativní), popř. jeden znak slovní (kvalitativní), a to alternativní. Postačí to k vybudování dostatečně široké a použitelné teorie, jejíž rozšíření na více znaků číselných i slovních (a to nejen alternativních, ale i množných) je již snadným mechanickým úkonem.
Výběrovým zjišťováním se má zpravidla odhadnout neznámé rozdělení daného statistického znaku ve zkoumaném souboru, popř. odhadnout pouze některé číselné charakteristiky tohoto rozdělení.
Kdybychom mohli o rozdělení zkoumaného souboru předpokládat, že je lze vyjádřit analyticky určitou matematickou funkcí (tj. lze je s dostatečnou přibližností modelovat teoretickým rozdělením) stačilo by odhadnout velikost parametrů této funkce (modelu). Rozdělení ve zkoumaných souborech, zvlášť vzhledem k jejich konečnému rozsahu, však téměř nikdy nepředstavuje některý typ teoretického rozdělení, a v tom případě se musíme spokojit s odhadem momentových či jiných měr (charakteristik) rozdělení. Jak víme, jsou to především aritmetický průměr, rozptyl (směrodatná odchylka) a koeficient šikmosti, které dostatečně charakterizují hlavní vlastnosti každého rozdělení četností.
Při výběrovém zjišťování v oblasti ekonomických a jiných společenských jevů se nejčastěji odhaduje průměr (popř. úhrn) zkoumaného znaku a podíl dvou průměrů (úhrnů). Na tyto charakteristiky zaměříme především pozornost. Pokud se budeme zabývat odhady měr variability, bude tomu tak převážně proto, že jsou nezbytné ke stanovení směrodatných chyb (u bodových odhadů), popř. přípustných chyb (u intervalových odhadů). Z ostatních charakteristik si všimneme ještě relativních a absolutních četností, jejichž odhady jsou důležité zejména pro kvalitativní znaky.
V některých případech má výběrové zjišťování ověřit předem stanovenou charakteristiku rozdělení. Bude tomu tak tehdy, jsme-li schopni na základě znalostí a zkušeností (včetně výsledků dříve provedených šetření) předpokládat určitou hodnotu této charakteristiky. Na základě údajů zjištěných u vybraných jednotek pak ověřujeme (testujeme), zda je tento předpoklad přijatelný.
Například při průzkumech předvolebních preferencí nás může u některé politické strany zajímat, zda obdrží tolik hlasů, aby to představovalo alespoň 5% a strana se tak dostane do poslanecké sněmovny. Teprve poté nás bude zajímat, kolik přibližně procent hlasů a kolik poslaneckých křesel tato politická strana získá.
Z toho, co bylo právě uvedeno, je zřejmé, že při výběrovém šetření prováděném pomocí pravděpodobnostních výběrů budou teoretickým východiskem zobecňování poznatků obě části induktivní statistiky – teorie odhadu i teorie testování hypotéz. Častěji to však bude teorie odhadu, a z ní opět častěji teorie bodového než teorie intervalového odhadu. Teorii bodového odhadu ovšem nebudeme moci převzít z klasické matematické statistiky v té podobě, v jaké vznikla pro potřeby tzv. malých výběrů neboli výběrů z nekonečných souborů. Pro potřeby teorie výběrových zjišťování (neboli pro teorii tzv. velkých výběrů) musíme teorii odhadu poněkud modifikovat.
Vraťme se však ještě k několika dalším základním pojmům, které budeme v dalším výkladu používat. Zkoumaný znak nabývá různých obměn u statistických jednotek, neboli jednotek zjišťování. K danému okamžiku a na daném území, popř. s dalšími omezeními, tvoří všechny tyto jednotky s danou společnou vlastností statistický soubor. Z něho však při výběrovém zjišťování prošetřujeme jen část, tj. jen některé vybrané jednotky. Musíme proto především rozlišit základní soubor a výběrový soubor; o obou ještě pojednáme podrobněji za okamžik. Stavebními prvky obou souborů jsou výběrové jednotky, což jsou buď statistické jednotky nebo jejich skupiny. Každá výběrová jednotka při realizovaném výběru (výběrové proceduře) buď je vybrána (a prošetřena), nebo není vybrána. Výběrové jednotky tedy nesmíme zaměňovat se skutečně vybranými jednotkami; tyto dva pojmy je nutné důsledně rozlišovat.
Výběrová jednotka má být zvolena tak, aby zjišťovaný znak u ní vykazoval co nejmenší variabilitu; tím se dosáhne maximální přesnosti odhadů. Z praktického hlediska je třeba ji zvolit tak, aby bylo možné snadno pořídit vhodnou výběrovou základnu (oporu) a aby se vybrané výběrové jednotky snadno určily "v terénu". Je-li výběrovou jednotkou skupina elementárních (statistických) jednotek, může to být buď skupina přirozená (např. domácnost jako skupina osob), nebo skupina umělá (např. územní plocha jako skupina parcel, domů apod). Neprošetřují-li se vybrané skupiny celé, ale provádí-li se uvnitř nich další výběr, jde o vícestupňový výběr, kdy je třeba rozlišovat primární, sekundární, terciární atd. výběrové jednotky.
Souhrn všech výběrových jednotek, jak jsme již uvedli, tvoří základní soubor. Základní soubor může mít konečný nebo nekonečný rozsah. Zatímco se základními soubory nekonečného rozsahu se setkáváme při použití výběrové metody zkoumání v přírodních vědách a v technice, a to v podobě nekonečného počtu možných opakování určitého pokusu nebo měření (skutečně provedené pokusy či měření potom považujeme za výběrový soubor), tak naproti tomu v oblasti sociálních a ekonomických jevů se setkáváme pouze s konečnými základními soubory. (Něco jiného je, když je některý ze základních souborů tak rozsáhlý, že lze použít – jako přibližnou – teorii výběru z nekonečně rozsáhlých populací, tj. teorii tzv. malých výběrů.) Důležitou vlastností konečných základních souborů z oblasti sociálně ekonomické statistiky je, že jejich prvky lze vzájemně rozlišit (identifikovat), takže i při opětovném vytažení určitého prvku při výběru s vracením jsme schopni tuto skutečnost rozpoznat. To je další odlišnost teorie velkých výběrů od teorie malých výběrů.
Při budování teorie se zpočátku omezíme na jeden statistický znak, ať již číselný, nebo slovní. Zkoumaný číselný znak (proměnnou) tedy označme Y, přičemž hodnoty, jichž nabývá na jednotlivých prvcích souboru, budeme značit Y1, Y2, ..., Yk, ..., YN. Ostatními písmeny z konce abecedy, jako X, Z, popř. i jinými budeme značit další znaky (proměnné), jež budou mít většinou charakter pomocných proměnných. Rozsah základního souboru označíme N.
Některé hodnoty Yk (k = 1,2,...,N) mohou být shodné, zvláště v rozsáhlých základních souborech, takže potom mluvíme o rozdělení četností v základním souboru, stručněji o základním rozdělení. (Na rozdíl od nekonečných základních souborů uvažovaných v teorii malých výběrů není toto základní rozdělení zpravidla možné vyjádřit analyticky. Není představováno hladkou křivkou či plynulým histogramem, ale je více či méně "kostrbaté" a je možné je vyjádřit jen tabulkou a graficky.)
Každá funkce hodnot Yk představuje určitou charakteristiku základního souboru. Nejvíce nás bude zajímat úhrn všech hodnot v základním souboru neboli stručně základní úhrn
(1.1) |
a prostý aritmetický průměr základního souboru, neboli základní průměr
(1.2) |
Jako míru variability budeme používat pouze rozptyl a charakteristiky z něho odvozené, tj. směrodatnou odchylku a variační koeficient. V souladu s popisnou statistikou bylo by možné vymezit rozptyl základního souboru neboli základní rozptyl vzorcem
(1.3) |
základní směrodatnou odchylku bychom pak označili S´ a základní variační koeficient (podíl ) bychom označili třeba V´.
V souladu s induktívní (matematickou) statistikou je však vhodnější vymezit základní rozptyl vzorcem
(1.4) |
který se od S´2 liší jmenovatelem, v němž místo N se vyskytuje N – 1. Protože v některých případech budeme používat oba výrazy současně, má každý z nich jiný symbol.
V některých – zejména starších – knihách byl rozptyl (1.3) označován symbolem s2. Hlavní důvod opuštění tohoto symbolu vysvětlíme později, až zavedeme pojem nadsouboru. Symbol S´2 byl používán v literatuře též pro výběrový rozptyl.
Za poznámku rovněž stojí, že jak výraz S´2, tak i výraz S2 je stejně pojmenován ("základní rozptyl"). Někteří autoři, aby se vyhnuli této terminologické nejednoznačnosti, zavádějí pouze veličinu S2; dostávají se však tím v jistých okamžicích do nesnází. Jiní autoři rozlišují oba výrazy odlišnými názvy; např. v knihách Sukhatme et al. (1970 a 1985) byl považován za rozptyl pouze výraz S´2, zatímco S2 se nazýval "střední čtverec" (mean square). Tento termín však není dostatečně výstižný a neujal se.
Mezi výrazy S2 a S´2 platí vztah
(1.5) |
přičemž zlomek N/(N – 1) pro dostatečně velká N je roven přibližně jedné. U většiny základních souborů se může očekávat, že budou mít rozsah přinejmenším několik set až tisíc jednotek. Proto se dá říci, že skoro vždy se budou výrazy S´2 a S2 s dostatečnou přibližností rovnat.
Jestliže přijmeme definici (1.4), základní směrodatnou odchylku budeme značit S, základní variační koeficient (podíl ) označíme V.
Poznámka 1.1 Zatímco rozptyl S´2 představuje jeden z momentů (přesněji centrálních momentů)
(1.6) |
a to moment druhého řádu (r = 2), pak rozptyl S2 spadá mezi jiné, ale podobné charakteristiky, značené Kr .
Často odhadovanou veličinou při výběrovém šetření je počet prvků základního souboru, které vykazují určitou obměnu zkoumaného kvalitativního (slovního) znaku. Tento počet prvků neboli základní absolutní četnost označíme M, její podíl na celkovém rozsahu souboru N neboli základní relativní četnost budeme značit P, tedy P = M/N. Relativní četnost prvků, které danou obměnu nemají, se v literatuře někdy značí Q ; potom tedy platí
(1.7) |
Další charakteristiky základního souboru a jejich symboly zavedeme později. Nyní se budeme zabývat výběrovým souborem a jeho charakteristikami.
Výběrový soubor (stručně výběr, někdy také vzorek) je soubor výběrových jednotek, které byly při výběrovém zjišťování ze základního souboru vybrány (náhodně nebo úsudkově) a prošetřeny. U pravděpodobnostních (náhodných) výběrů závisí složení výběrového souboru - na rozdíl od základního souboru, který je neměnný - na výsledku tohoto způsobu výběru, tedy na náhodě, a je proto proměnlivé. Obecně lze pouze říci, že výběrový soubor je vždy určitou částí (podsouborem, podmnožinou) základního souboru.
Zatím však neuvažujme v příliš obecných pojmech a v zájmu srozumitelnosti výkladu se omezme ještě chvíli na výběrové soubory vzniklé postupným výběrem, tj. provedením určitého počtu tahů ze základního souboru. Ať půjde o výběr bez vracení, nebo s vracením, označme počet tahů n a hodnoty znaku Y, zjištěné u vybraných n jednotek, označme y1, y2, ..., yi, ..., yn. Na rozdíl od Yk, což jsou určitá čísla, jsou yi náhodné veličiny nabývající konkrétní číselné velikosti v závislosti na výsledku náhodného pokusu (kterým je i-tý tah ze základního souboru). Při výběru s vracením se každé yi může realizovat jako kterákoli hodnota Yk; při výběru bez vracení se může realizovat jen jako některá z těch hodnot Yk, která v předchozích i –1 tazích vybrána nebyla.
Tato symbolika se liší od symboliky používané v počtu pravděpodobnosti. Zatímco tam značí zpravidla písmena velké abecedy náhodnou veličinu a písmena malé abecedy konkrétní hodnoty (obměny) této náhodné veličiny, zde musí malá písmena značit jak náhodnou veličinu jako takovou, tak i její konkrétní hodnoty, protože velká písmena rezervujeme pro hodnoty a z nich vypočtené charakteristiky sledované veličiny v základním souboru. Tento způsob označování je běžný v celé knižní i časopisecké literatuře z oblasti teorie výběrových zjišťování.
Obdobně k základním charakteristikám budeme z výběrových
pozorování yi sestrojovat
výběrové charakteristiky neboli statistiky.
Především je to úhrn všech hodnot ve výběrovém souboru neboli stručně výběrový
úhrn
(1.8) |
a prostý aritmetický průměr výběrového souboru neboli výběrový průměr
(1.9) |
Rozptyly výběrového souboru neboli výběrové rozptyly vymezíme obdobně jako základní rozptyly, tj. vzorci
(1.10) |
(1.11) |
takže platí vztah
.
Výběrové směrodatné odchylky označíme s a s´, výběrové variační koeficienty (podíly , popř. ) pak v´ a v.
Poznámka 1.2 Stejně jako v poznámce 1.1 můžeme také nyní upozornit na to, že výběrový rozptyl s´2 je jedním z výběrových momentů
(1.12) |
a to když r = 2, a že výběrový rozptyl s2 je jednou z tzv. statistik k.
Při zkoumání kvalitativního znaku budeme absolutní a relativní četnosti ve výběrovém souboru značit stejně jako v základním souboru, avšak opět malými písmeny. To znamená, že m bude představovat absolutní počet jednotek ve výběru, které mají sledovanou obměnu zkoumaného znaku, tj. výběrovou absolutní četnost, a že p, kde
(1.13) |
bude značit jejich podíl na celkovém rozsahu výběru neboli výběrovou relativní četnost. Výběrovou relativní četnost zbývajících prvků někteří autoři značí q, a platí potom obdobně k relaci (1.7)
(1.14) |
Ze symbolů, které budeme u náhodného výběru používat, zbývá zmínit se ještě o poměru rozsahu výběrového souboru a rozsahu základního souboru
(1.15) |
tj. o výběrovém podílu. Hodnota výběrového podílu udává, jaká část základního souboru byla (bude) prošetřena. Převrácená hodnota výběrového podílu N/n se nazývá výběrový krok (výběrový interval). Jeho číselná hodnota udává, kolikátá výběrová jednotka byla (má být) „v průměru“ vybrána.
K definicím základního a výběrového souboru a jejich charakteristik nutno ještě připojit definici nadsouboru (superpopulace). Jde o pomyslný model skutečného (reálného) základního souboru, a to model s takovými vlastnostmi, které se dají snadno postihnout matematicky, zejména analytickým vyjádřením rozdělení pravděpodobností (teoretických četností). Základní soubor potom považujeme za náhodný výběr z nekonečného nadsouboru, za jednu z mnoha možných "realizací" tohoto modelu. Tato představa má usnadnit, popř. vůbec umožnit řešit některé teoretické problémy v případě konečných základních souborů.
Parametry a charakteristiky nadsouboru označujeme malými písmeny řecké abecedy. Například pro parametry se většinou používají písmena ze začátku abecedy (a, b, g atd.), pro momentové charakteristiky symboly mr´ a mr a pro charakteristiky typu k neboli kumulanty ckÀr . Speciálně střední hodnotu označíme m1´, nebo jednodušeji m, rozptyl označíme m2 nebo s2.