Pořizování náhodného výběru

Opora výběru

Náhodný výběr menšího počtu nevelkých a stejnorodých jednotek lze zpravidla provést přímo (například šroubky nebo jiné drobné výrobky lze promíchat, a potom jich namátkou odebrat stanovený počet). Tento způsob nelze samozřejmě uplatnit při výběru takových jednotek, jako jsou osoby, domácnosti, průmyslové podniky, větší předměty, parcely apod. Zde je nutné – a náhodnost výběru se tím nijak nenaruší – aby jednotky byly při vybírání zastoupeny značkami, např. lístky se jmény jednotek.

Soubor těchto značek (zástupců) se nazývá opora výběru. Vedle lístků (kartiček) je velmi často používanou oporou seznam jednotek. Ze seznamů vybíráme jednotky tak, že je napřed očíslujeme pořadovými čísly, a pak vybíráme čísla (např. z tabulek náhodných čísel – viz dále). Vhodnou oporou jsou i mapy, zejména při výběru bloků domů, pozemků, různých staveb, osad apod. Výběr z map lze provést rovněž pomocí číslování.

Opora v každé formě musí splňovat určité podmínky; především musí být úplná. Značky a jednotky si musí dále navzájem odpovídat jednoznačně, přičemž musí být udán způsob, jak ke každé značce nalézt příslušnou jednotku, a naopak. Tomu se např. u seznamů vyhoví tím, že se vedle "jména" každé jednotky uvede i její "adresa", tj. buď adresa v běžném smyslu slova, nebo jiná instrukce, jak jednotku vyhledat. Při složitějších způsobech výběru musí opora obsahovat všechny vedlejší informace nezbytné k provedení výběru zvoleným způsobem. Konečně opora nemá být příliš stará, protože potom může obsahovat jednotky, které již zanikly, a naopak v ní nebudou jednotky nové.

Techniky náhodného výběru

Všechny druhy pravděpodobnostního výběru vyžadují, aby byla dodržena naprostá náhodnost vybírání. To lze zabezpečit různými způsoby.

Nejjednodušší technikou náhodného výběru je prosté losování. Tento "znáhodňovací proces" je všeobecně známý z loterií, sportovních turnajů, společenských her apod., takže není třeba jeho podstatu vysvětlovat. Za upozornění snad stojí podmínky, které je třeba dodržet, aby losování bylo "spravedlivé" a aby byly vyloučeny jakékoli rušivé vlivy.

Všechny jednotky nebo jejich zástupce je třeba především řádně promíchat. Nedostatečným promícháním může vzniknout strukturálně deformovaný výběrový soubor, a tím dojde k znehodnocení celého šetření. Po důkladném promíchání jednotek není již statistik při odběru vázán žádnými pravidly a může odebrat příslušný počet jednotek z kterékoli části hromady.

Provádí-li se ovšem výběr s vracením, je třeba míchání opakovat po každém vrácení. To je ostatně také jeden z důvodů, proč je výběr s vracením ve srovnání s výběrem bez vracení méně výhodný.

Losování jako způsob náhodného vybírání lze použít jak pro výběr se stejnými pravděpodobnostmi, které je velmi jednoduché (každá jednotka má jednoho zástupce), tak i pro výběr s nestejnými pravděpodobnostmi. Jak se provádí losování při výběru s nestejnými pravděpodobnostmi, vysvětlíme později.

Losování však není univerzální metoda náhodného výběru. Jeho použití je obtížné zejména při výběrech z velmi rozsáhlých základních souborů. Představme si např., že bychom při předběžném zpracování údajů ze sčítání lidu chtěli promíchat několik miliónů kartiček. To je úkon v praxi neproveditelný. Zde je nutné použít jiný způsob náhodného vybírání, například tzv. tabulky náhodných čísel.

V tabulkách náhodných čísel jsou sestavena do sloupců jednociferná (dvojciferná nebo i víceciferná) čísla složená z číslic 0 až 9, seřazených náhodným způsobem.

Tabulky náhodných čísel bývají sestaveny pomocí nějakého znáhodňovacího procesu, který produkuje všechny číslice 0 až 9 se stejnou pravděpodobností a nezávisle za sebou. Jedním ze způsobů, jak získat tyto tabulky, je např. losování, dále to může být zapisování výsledků při hře na ruletě apod. Některé starší tabulky se získaly tak, že se vypisovaly prostřední číslice z účastnických čísel v telefonním seznamu (části bytové) nebo číslice na vyšších desetinných místech z vícemístných (např. dvacetimístných) logaritmických tabulek. Zhruba od šedesátých let se náhodná čísla generují na počítačích.

Po sestavení se tabulky náhodných čísel podrobují řadě zkoušek, zda neobsahují některé nenáhodnosti, např. nevyskytují-li se některé číslice příliš často (každá se má v tabulkách vyskytovat zhruba stejně často), neopakují-li se cyklicky některá seskupení apod. Náhodnost seřazení se zkouší jak po řádcích, tak po sloupcích. Je třeba přiznat, že ani potom nemusí být tabulky bezvadné, protože náhodnost mohla být porušena jiným (nekontrolovaným) způsobem.

Použití tabulek při náhodných výběrech ukážeme na výběru se stejnými pravděpodobnostmi. Všechny prvky (výběrové jednotky) se nejprve očíslují pořadovými čísly. Není přitom nutné začínat od jedničky, je možné začít od nuly nebo od jiného (vyššího) čísla, dokonce mohou být v očíslování skoky, tj. některá pořadová čísla mohou zůstat neobsazena; důležité je pouze to, aby každému prvku souboru bylo přiřazeno právě jedno pořadové číslo.

Do výběru se potom zařadí ty prvky, jejichž pořadová čísla byla nalezena v tabulkách počínaje od namátkou zvoleného. Postupovat se může libovolným směrem (kolmo, vodorovně, šikmo), směr se však nesmí svévolně měnit. Je-li rozsah základního souboru např. trojciferné číslo, čtou se v tabulkách trojciferná čísla, tj. tři sloupce vedle sebe. (Jsou-li v tabulkách jednotlivé sloupce seskupeny po dvou, třech nebo čtyřech - jako je tomu i v našem vzoru tabulek - je tomu tak pouze proto, aby se v tabulkách lépe četlo. Můžeme proto potřebná trojčíslí vytvořit z kterýchkoli tří sousedících sloupců. Můžeme však také jeden sloupec pravidelně vypouštět atd.).

Výběr pomocí tabulek náhodných čísel je sice u rozsáhlých souborů mnohem jednodušší než losování, nicméně tím, že vyžaduje očíslování všech prvků, může v některých případech být stále ještě dosti pracný. Často se proto používá postup, který vybírání ještě více zjednodušuje, a to systematický čili mechanický výběr.

Systematický výběr pouze vyžaduje, aby prvky nebo jejich zástupci v opoře výběru byly seřazeny do posloupnosti. Z ní se pak vybírá každý k-tý prvek počínaje od náhodně zvoleného. Chceme-li například vybrat 4% prvků, vybíráme každý pětadvacátý.

Systematický výběr můžeme považovat za rovnocenný náhodnému výběru a jako takový zpracovat jen tehdy, jsou-li jednotky seřazeny podle kritéria, které splňuje dva požadavky. Jednotky musí být seřazeny zcela objektivně a naprosto nezávisle na zkoumané vlastnosti (na zjišťovaném znaku). Například seřazení obcí nebo osob podle abecedy je nezávislé téměř vůči všem znakům.

Tím jsem probrali hlavní a nejpoužívanější způsoby náhodného vybírání. Zbývá zmínit se ještě o výběru pomocí nekorelovaného (přesněji nezávislého) znaku, které může být v některých případech rovněž velmi vhodné. Při tomto způsobu se do výběru zahrnou všechny prvky se společnou hodnotou zvoleného znaku nezávislého na znaku zjišťovaném. Například výběr osob z kartotéky, kde jsou uvedena data narození rodičů, by bylo možno provést tak, že by se do výběru zahrnuly osoby, jejichž matka se narodila třeba 16. dne v měsíci (v kterémkoli). Je-li kartotéka přenesena do počítače jako datový nebo textový soubor, je takový výběr i z velmi rozsáhlého základního souboru technicky velmi jednoduchý.

Podobně se provádí výběr osob podle začátečního písmena jejich příjmení: do výběru se zahrnou například osoby s příjmením začínajícím K nebo M nebo jiným zvoleným písmenem. Zde je ovšem již třeba určité obezřetnosti, zvláště v oblastech s národnostně nebo rasově smíšeným obyvatelstvem. Nevhodně zvolené písmeno by totiž mohlo snadno porušit průměrnou strukturu obyvatel v souboru.

U všech provedených náhodných výběrů je třeba dbát na to, aby vybrané prvky byly skutečně prošetřené a nezaměňovaly se za jiné. Není například možné, abychom místo vybrané domácnosti, kde jsme nezastihli nikoho doma, navštívili sousední byt a tam provedli příslušné zjišťování. Podobné subjektivní zásahy do tvorby výběrového souboru vedou většinou ke vzniku značných zkreslení.