Vícerozměrná analýza

Při vícerozměrné analýze můžeme rozlišit následující základní typy úloh:


Sledování vzájemné závislosti dvou kvantitativních proměnných, které splňují předpoklad normality

U kvantitativních proměnných, které splňují předpoklad normality, lze zkoumat vzájemnou závislost pomocí korelační analýzy. Intenzita závislosti je posuzována pomocí Pearsonova korelačního koeficientu, který nabývá hodnot z intervalu <-1;1>, přičemž hodnota 0 znamená nezávislost. Testem o nezávislosti je tedy test o nulovosti korelačního koeficientu.


Sledování vzájemné závislosti dvou kategoriálních proměnných

Základním testem je test chí-kvadrát o nezávislosti dvou proměnných, založený na četnostech v kontingenční tabulce. Pro sledování intenzity závislosti jsou používány různé koeficienty, které obvykle nabývají hodnot z intervalu <0;1>, případně <-1;1>, přičemž hodnota 0 znamená nezávislost. Dalšími testy jsou tedy testy o nulovosti těchto koeficientů.

Pro speciální situace (např. tabulka 2 x 2 – tj. obě proměnné jsou dichotomické) existují míry, které v případě nezávislosti nabývají hodnoty 1. Tehdy testujeme, zda příslušný koeficient se rovná jedné. Jestliže není splněn předpoklad pro použití chí-kvadrát testu v kontingenční tabulce (týká se teoretických četností v políčkách tabulky), pak jsou používány tzv. exaktní testy.

Chí-kvadrát test o nezávislosti patří mezi neparametrické testy. Dalšími z těchto testů, které můžeme zařadit k postupům pro řešení prvního typu úloh, jsou testy pro 2 závislé (párové) výběry. Pomocí nich testujeme, zda dvě ordinální proměnné jsou výběry ze stejného rozdělení. Existuje i speciální test pro dvě dichotomické proměnné, který je založen na četnostech v asociační tabulce (Mc Nemarův).

Koeficienty závislosti můžeme klasifikovat na základě


Sledování jednostranné závislosti dvou kategoriálních proměnných

V tomto případě obvykle testujeme nulovost koeficientů, počítaných na základě četností v kontingenční tabulce. Jde vždy o dvojici asymetrických koeficientů, které posuzují míru závislosti jednak proměnné X na Y, jednak Y na X (z každé takové dvojice můžeme vypočítat koeficient symetrický).

Další testy řadíme k neparametrickým. Sledujeme při nich závislost ordinální proměnné na proměnné kategoriální, u níž nezáleží na typu. Tyto testy dělíme na případy, kdy


Sledování závislosti kvantitativní spojité proměnné na proměnných kategoriálních

Pokud jsou vysvětlujícími proměnnými pouze proměnné kategoriální, provádí se zjišťování závislosti pomocí analýzy rozptylu. Jestliže chceme též odhadovat hodnoty vysvětlované proměnné, provedeme regresní analýzu (lineární či nelineární), přičemž můžeme jako vysvětlující použít proměnné různých typů. Nominální proměnnou však musíme převést na pomocné proměnné, například na binární.


Sledování závislosti kvantitativní spojité proměnné na kvantitativních proměnných

Modelování těchto vztahů je předmětem regresní analýzy.


Sledování vzájemné závislosti tří a více kvantitativních spojitých proměnných

K tomuto účelu slouží korelační analýza, intenzita závislosti je posuzována pomocí celkového (vícenásobného) korelačního koeficientu.


Sledování vzájemné závislosti tří a více kategoriálních proměnných

Obecným přístupem je rozšíření chí-kvadrát testu o nezávislosti pro dvě proměnné přidáváním dalších rozměrů. Jestliže zamítneme hypotézu o nezávislosti, zjišťujeme dále, zda není nezávislost porušena pouze u některé skupiny proměnných.

Pro ordinální proměnné lze použít neparametrické testy pro 3 a více závislých výběrů. K nim patří Friedmanův test, který je založen na pořadí hodnot. Jsou porovnávána průměrná pořadí pro všechny proměnné. Základní idea je taková, že pokud není rozdíl mezi výběry, pak není rozdíl mezi průměrnými pořadími. Friedmanovo testové kritérium má při platnosti hypotézy H0 přibližně chí-kvadrát rozdělení.

Ve výstupu z programového systému získáváme dvě tabulky. První obsahuje průměrná pořadí a druhá vlastní výsledek testu, který zahrnuje: počet pozorování, hodnotu testového kritéria chí-kvadrát, počet stupňů volnosti a minimální hladinu významnosti.


Sledování závislosti kategoriální proměnné na 2 a více kategoriálních proměnných

Tímto typem úloh se zabývá loglineární analýza.


Zkoumání podobnosti proměnných – shlukování (segmentace)

Kromě neparametrických testů pro závislé výběry, které jsou určeny pro ordinální proměnné a při nichž je nutno zadávat, podobnost kterých proměnných chceme zjišťovat, existují metody zaměřené na shlukování. Protože je současně zjišťována rozdílnost skupin proměnných, jsou v současné literatuře (zejména v souvislosti s temínem „data mining“) označovány tyto úlohy jako segmentace.

Shlukovou analýzu můžeme použít v případech, kdy jsou proměnné stejného typu. Speciální míry vzdálenosti (resp. podobnosti) existují pro diskrétní číselné proměnné a pro proměnné binární Při hierarchické shlukové analýze se počítá matice vzdálenosti, resp. podobnosti, nejprve pro všechny dvojice proměnných a poté se kombinují vzdálenosti jednak mezi jednotlivými proměnnými, jednak mezi vzniklými shluky proměnných. Uvedený postup je použitelný jak pro zjišťování podobnosti proměnných, tak pro zjišťování podobnosti objektů.

Speciálním přístupem pro zjišťování podobnosti kvantitativních proměnných je faktorová analýza. Jejím základem je analýza hlavních komponent, která slouží ke snížení rozměrů úlohy (místo mnoha proměnných je pro další výpočty určen malý počet hlavních komponent, které lze vyjádřit lineární kombinací původních proměnných). Pro případ, kdy nelze použít lineární kombinaci, je určena nelineární faktorová analýza.

Jestliže máme k dispozici proměnné nominální, je místo faktorové analýzy používána analýza homogenity, což je vícerozměrná korespondenční analýza.


Zkoumání podobnosti objektů (shlukování)

Pro tento typ úloh je určena shluková analýza, o níž bylo pojednáno v souvislosti s výše uvedeným typem úloh.


Zkoumání podobnosti kategorií (jedné či dvou proměnných)

Pro tento případ lze použít shlukovou analýzu založenou na četnostech v kontingenční tabulce, pro dvě proměnné dvourozměrnou shlukovou ananlýzu.


Zařazování objektů do skupin (klasifikace)

Jestliže je kategoriální proměnnou pouze proměnná vysvětlovaná a vysvětlující proměnné jsou kvantitativní spojité, používá se diskriminační analýza. Na základě analýzy vztahů mezi vysvětlujícími a vysvětlovanou proměnnou lze pro neznámý objekt se známými hodnotami vysvětlujících proměnných odhadnout zařazení tohoto objektu do definovaných skupin (tj. odhadnout hodnotu vysvětlované proměnné).

Pokud je vysvětlovaná proměnná dichotomická, můžeme použít logistickou regresní analýzu, která je speciálním případem zobecněného lineárního modelu. Jestliže bychom chtěli do analýzy jako vysvětlující proměnnou zařadit proměnnou nominální, je třeba ji převést na pomocné proměnné, například na binární. V nejnovějších verzích statistických programových systémů se dále můžeme setkat s nabídkou multinomické logistické regresní analýzy pro nominální vysvětlovanou proměnnou a ordinální regresní analýzy pro ordinální vysvětlovanou proměnnou.

V případě, že budeme brát v úvahu pouze proměnné kategoriální, lze použít kategoriální regresní analýzu, která rozšiřuje přístupy regrese a loglineárního modelování kvantifikací kategoriálních proměnných.

V poslední době jsou pro uvedený typ úloh často využívány tzv. klasifikační stromy, které jsou určeny speciálně pro kategoriální data. Do analýzy mohou být zahrnuty i proměnné kvantitativní spojité, u nichž jsou však určitým intervalům přiřazeny kategorie.


Sledování vztahů mezi kategoriemi u dvou či více proměnných

Tímto typem úloh se zabývá korespondenční analýza. Pro sledování vztahů mezi kategoriemi dvou proměnných je určena jednoduchá korespondenční analýza, kategorie tří a více proměnných zkoumá vícenásobná korespondenční analýza.


Analýza spolehlivosti

Pro tento typ úloh se používá stejnojmenná metoda. Je určena pro skupinu ordinálních proměnných se stejným počtem kategorií, které sledují například určitou schopnost člověka (řešit matematické úlohy, postarat se o sebe v rekonvalescenci) . Metoda zkoumá, zda použité proměnné tvoří vhodný výběr z množiny možných proměnných, kterým lze danou schopnost spolehlivě ohodnotit.


Úlohy zaměřené na výzkum trhu

I když při výzkumu trhu lze použít všechny výše uvedené úlohy, existuje několik úzce specializovaných metod určených k řešení speciálních problémů. Jednou z nich je „conjoint“ analýza, která slouží ke zjišťování, které vlastnosti výrobků, respektive které jejich kombinace, nejvíce ovlivňují preference zákazníků (zákazníci každému výrobku přiřadí pořadí). Sleduje míru vlivu proměnných popisujících výrobek, jejich jednotlivých kategorií a jejich kombinací na preference.

Analýza diskrétního výběru slouží k podobným účelům. Zákazník má však k dispozici několik skupin výrobků, přičemž z každé skupiny vybírá právě jeden výrobek. Je zjišťováno, které proměnné mají vliv na výběr výrobků.

Vícerozměrné škálování sleduje podobnost výrobků na základě názorů zákazníků.

Vícerozměrná preferenční analýza je určena pro rozdělení výrobků do skupin na základě zjišťování, které produkty zákazníci hodnotí stejně či podobně. Získáváme tak obdobné výsledky jako v případě shlukové analýzy.

K metodám uvedeným v této skupině lze zařadit též již dříve zmíněnou korespondenční analýzu.