Hlavní druhy pravděpodobnostních výběrů

Je-li stanoveno, že se určité statistické zjišťování provede výběrově, je třeba rozhodnout, jakým způsobem bude výběr pořízen. Podkladem pro toto rozhodnutí je především velikost, struktura a stupeň stejnorodosti souboru, který bude podroben výběrovému zkoumání, dále charakteristiky, jež chceme odhadovat, a odhady (odhadové funkce), které k tomu chceme použít. V neposlední řadě je důležitý i souhrn pomocných (předběžných) informací, které by bylo účelné využít k zvýšení přesnosti odhadů.

Při pravděpodobnostním (náhodném) výběru mohou mít jednotky buď stejné nebo různé pravděpodobnosti vybrání. První způsob se nazývá výběr se stejnými pravděpodobnostmi. V praxi se používá velmi často, protože je teoreticky jednodušší a jeho provedení v praxi je mnohem snazší.

Druhý způsob, při němž mají jednotky různé pravděpodobnosti vybrání a tedy různé možnosti dostat se do výběru, se nazývá výběr s nestejnými (různými, proměnlivými) pravděpodobnostmi. Později se jím budeme zabývat podrobněji, přičemž jeho vymezení (definici) podáme v přesnější podobě; nyní ukážeme jeho význam na malém příkladě.

Dejme tomu, že máme zjistit (objektivním měřením na polích) hektarové výnosy zemědělských plodin. V rámci určitého regionu chceme odhadnout průměrný hektarový výnos pšenice pomocí několika desítek náhodně vybraných polí. Pole vybereme tak, že jim přiřadíme pravděpodobnosti vybrání úměrné jejich velikostem a dosáhneme tak toho, že větší pole budou zastoupena ve výběru častěji, budou v něm mít větší "váhu". Odhadem průměrného hektarového výnosu – všech pěstitelů pšenice – pak bude prostý (nevážený) průměr výnosů z jednotlivých vybraných polí. Použít vážený průměr v tomto případě nemusíme, protože jsme provedli "vážení výběrem".

Při tomto způsobu vybírání se používají určité doplňkové informace; v našem případě musíme znát předem velikosti všech polí podrobených výběru. Naproti tomu k výběru se stejnými pravděpodobnostmi nemusíme mít předem vůbec žádné informace; stačí znát jen rozsah souboru.

Druhé hledisko, podle něhož se pravděpodobnostní výběry třídí, je vracení či nevracení vybraných jednotek do základního souboru po jejich vybrání a prošetření. Název "vracení" vznikl v souvislosti s losováním; při použití jiných technik vybírání není zcela výstižný.

Jestliže jednotky vybíráme jednu po druhé a každou hned prošetříme, můžeme prošetřenou jednotku před vybráním další jednotky do základního souboru buď vrátit nebo nevrátit. V prvním případě můžeme zřejmě tutéž jednotku vybrat dvakrát nebo i několikrát, neboli je zde možnost jejího opakování ve výběru. (Jiná otázka však je, jak se sestrojí příslušný odhad; zde můžeme opakování prvků brát v úvahu nebo nebrat v úvahu) Proto se první skupině výběrů říká výběry s vracením (s opakováním), zatímco druhé skupině se říká výběry bez vracení (bez opakování). Rozdíl mezi oběma způsoby výběru bude zřejmě zanedbatelný v případě, že podíl vybíraných jednotek bude velmi malý a pravděpodobnosti vybrání nebudou přitom vykazovat velkou variabilitu.

Jaké jsou výhody obou druhů výběrů? Z teoretického hlediska je výhodnější výběr s vracením, protože jednotlivé "tahy" představují řadu nezávislých pokusů, takže hodnoty zjištěné u vybraných jednotek jsou realizací nezávislých náhodných veličin. Z počtu pravděpodobnosti je známo, že za předpokladu nezávislosti náhodných veličin se mnohé úvahy a vzorce značně zjednodušují. Výhodnost výběru s vracením při úvahách v oblasti teorie bude zvlášť dobře patrná u výběru s nestejnými pravděpodobnostmi.

Z hlediska praxe je naproti tomu v četných případech výhodnější výběr bez vracení. Platí to především o výběrech se stejnými pravděpodobnostmi, pokud se provádějí losováním. V těchto případech není nutné vybírat z osudí postupně jeden prvek po druhém; stanovený počet prvků se prostě "vytáhne" naráz. Velmi oblíbenou technikou vybírání v praxi je systematický výběr, který při výběrech se stejnými pravděpodobnostmi vede také k výběrům bez opakování.

Základním kritériem vhodnosti vybírání s vracením anebo bez vracení je však vydatnost odhadů založených na prvním, nebo na druhém způsobu. Přestože vzorce pro směrodatné chyby – jakožto míry vydatnosti – nemáme ještě k dispozici (odvodíme je postupně v dalších kapitolách), můžeme ke správnému závěru dojít úsudkem: protože při výběru s vracením se mohou některé jednotky ve výběru opakovat, ztrácí se zřejmě při daném rozsahu výběru určitý objem informace, obsažené jinak v dalších výběrových jednotkách. Znamená to, že z hlediska vydatnosti odhadů je vhodnější výběr bez vracení.

Mezi výběrem s vracením a bez vracení je ještě jeden rozdíl, na který je třeba upozornit. Zatímco při výběrech s vracením lze počet vybíraných prvků (počet tahů) neomezeně zvyšovat, i kdyby přesáhl rozsah základního souboru, při výběrech bez vracení je jejich počet rozsahem základního souboru omezen. V praxi se ovšem provádějí pouze taková výběrová šetření, u nichž je počet vybraných prvků podstatně menší než počet všech prvků (než rozsah základního souboru). V případě, že by počet vybraných prvkům měl převýšit řekněme třetinu počtu všech prvků, je lépe prošetřit všechny jednotky, tj. přejít na úplné zjišťování.

Poznámka. Při úvahách o vracení a nevracení je třeba se ještě zmínit o pořadí, v jakém byly jednotky vybrány, a o jeho významu. Na pořadí vybraných prvků se bere ohled jen při výběrech s nestejnými pravděpodobnostmi, kdy pravděpodobnosti pořízení určitého výběrového souboru jsou pro různá pořadí prvků různé. Při výběru s vracením nebo při výběru se stejnými pravděpodobnostmi ohled na pořadí brát nemusíme: pravděpodobnosti pořízení určitého výběrového souboru jsou pro všechny permutace vybraných prvků stejné.

Třetím hlediskem, podle něhož se pravděpodobnostní výběry třídí, je rozlišení přímého výběru a složitějších uspořádání výběru. Máme např. provést náhodný výběr domácností v celé České republice. Čtyřmiliónový soubor domácností lze stěží podrobit přímému výběru, protože bychom museli mít k dispozici jejich úplný a aktuální seznam, ať již napsaný nebo zaznamenaný na nějakém počítačovém nosiči (disku apod.). To však je téměř vždy vyloučeno. Patrně bychom proto provedli výběr ve dvou stupních: nejprve bychom vybrali náhodně obce a uvnitř nich (opět náhodně) stanovený počet domácností. Kromě toho by bylo účelné rozdělit soubor domácností na několik částí (dílčích souborů) podle sociálního postavení příslušníků domácnosti, třeba na domácnosti zaměstnanecké, domácnosti osob samostatně činných, domácnosti rolníků a domácnosti důchodců, protože každá tato skupina se vyznačuje jistou vnitřní stejnorodostí a liší se naproti tomu od skupin ostatních.