Index determinace

 

Při aplikaci metody nejmenších čtverců platí vztah

kde

je celkový součet čtverců,

 

je součet čtverců modelu a

je reziduální součet čtverců. U součtu čtverců modelu by se ve vzorci místo průměru z napozorovaných hodnot měl spíše objevit průměr z hodnot odhadnutých. Při aplikaci MNČ se však dá odvodit, že tyto průměry jsou stejné, lze tedy psát

Je zřejmé, že čím je model lepší, tím větších hodnot bude nabývat součet čtverců modelu a reziduální součet čtverců bude menší. Naopak špatný model znamená velkou hodnotu reziduálního součtu čtverců ve srovnání se součtem čtverců modelu. Celou rovnost můžeme vydělit celkovým součtem čtverců a převést tak na tvar

Oba zlomky jsou kladné, jejich součet je roven jedničce, tedy nutně musí být hodnota obou zlomků mezi nulou a jedničkou. Pro příslušné zlomky platí nyní analogická úvaha jako pro samotné součty čtverců. Bude-li model dobře vystihovat závislost vysvětlované proměnné na pravé straně rovnice (tedy na vysvětlujících proměnných), poroste hodnota prvního zlomku v rovnosti k jedničce a druhý zlomek se bude blížit k nule. Bude-li model popisovat uvažovanou závislost špatně, bude tomu naopak. Je tedy logické vzít první zlomek jako kritérium kvality regresního modelu. Položíme tedy

a nazveme jej indexem determinace. Index determinace tedy

·        udává kvalitu regresního modelu, přesněji vyjádřeno udává, kolik procent rozptylu vysvětlované proměnné je vysvětleno modelem a kolik zůstalo nevysvětleno;

·        nabývá hodnot od nuly do jedné (teoreticky i včetně těchto krajních mezí), přičemž hodnoty blízké nule značí špatnou kvalitu regresního modelu; hodnoty blízké jedné značí dobro kvalitu regresního modelu;

·        udává se většinou v procentech.

 

Index determinace má však jednu nepříjemnou vlastnost, která částečně snižuje jeho kvalitu. Závisí totiž na počtu vysvětlujících proměnných a s růstem jejich počtu narůstá i jeho hodnota. Proto se častěji ne samotný index determinace používá tzv. modifikovaný index determinace, který je „penalizovaný“ za nadbytečný počet vysvětlujících proměnných. Má tvar

kde p je počet odhadovaných parametrů v modelu. Jeho hodnota je tedy vždy nepatrně menší než hodnota indexu nemodifikovaného.