Analýza dat v neurologii

Česká verzia

Autoři: L. Dušek; T. Pavlík; Jiří Jarkovský ; J. Koptíková
Působiště autorů: L. Dušek, T. Pavlík, J. Jarkovský, J. Koptíková
Vyšlo v časopise: Cesk Slov Neurol N 2018; 81(6): 727-731
Kategorie: Okénko statistika

LXXII. Statistické hodnocení Pearsonova korelačního koeficientu v příkladech

V tomto díle seriálu reagujeme na dotazy několika čtenářů k předchozímu dílu, který uvedl postupy pro výpočet Pearsonova korelačního koeficientu (R) a pro hodnocení jeho statistické významnosti. Nejprve připomeňme, že pomocí tohoto koeficientu měříme sílu lineární (přímkové) závislosti dvou náhodných veličin s dvourozměrným normálním rozdělením hodnot. Formou příkladů zde rozvedeme postupy testování statistické významnosti koeficientu R, které zahrnují jednak statistický test nulové hypotézy R = 0 a dále výpočet intervalu spolehlivosti pro odhad hodnoty R.

Ze vztahu pro výpočet Pearsonova korelačního koeficientu vyplývá, že jde o statistiku standardizovanou, která může nabývat pouze hodnot od –1 do 1. Hodnoty R blízké nule značí neexistující lineární vztah obou proměnných, hodnoty záporné ukazují na záporný lineární vztah a naopak kladné hodnoty koeficientu ukazují na vztah kladný:

V uvedeném vztahu jsou x_i, y_i jednotlivé hodnoty proměnných X a Y naměřené párově u i = 1 až i = N jedinců v analyzovaném souboru; x^–, y^– jsou aritmetické průměry proměnných X a Y a s_x, s_y jsou hodnoty směrodatných odchylek obou proměnných.

Statistickou významnost Pearsonova koeficientu hodnotíme pomocí testové statistiky, se Studentovým rozdělením hodnot (t), která ma N –⁠ 2 stupňů volnosti. Konkrétně počítáme hodnotu t dle následujícího vztahu:

Je zřejmé, že hodnotu testové statistiky ovlivňuje vedle samotné hodnoty R také velikost výběrového souboru, na kterém je hodnota korelačního koeficientu odhadována. Považujeme za nutné tento fakt zdůraznit, neboť hodnota korelačního koeficientu bývá často tendenčně posuzována pouze podle její absolutní hodnoty, tedy bez uvedení statistické významnosti. Je ovšem přirozené, že máme tendenci posuzovat míru korelace již podle samotné hodnoty R, neboť tato má jasně dánu minimální a maximální možnou hodnotu. Hodnotu korelačního koeficientu 0,9 tak považujeme za vysokou a naopak hodnotu 0,2 za nízkou. Avšak chceme-li sílu a průkaznost korelace dvou proměnných posoudit skutečně exaktně, pak musíme současně zvažovat nejen velikost korelačního koeficientu, ale i jeho statistickou významnost. Teoreticky totiž mohou při hodnocení významnosti korelace nastat různě rozporuplné situace, při kterých je třeba interpretaci výsledků analýzy pečlivě zvážit. Při analýze velkého souboru můžeme prokázat jako statisticky významný (významně odlišný od nuly) i korelační koeficient s relativně malou hodnotou. A naopak i velmi vysoká hodnota R nemusí být prokázána jako statisticky významně odlišná od nuly, jde-li o analýzu velmi malého souboru dat. V obou případech je na zvážení analytika, jak silně bude korelaci interpretovat. Přitom neexistují žádná paušálně daná pravidla, jak v dané situaci postupovat. Záleží na zadání dané studie, okolnostech výběru vzorku a jeho reprezentativnosti a v neposlední řadě i na odborném úsudku autora analýzy. Lze však doporučit následující tři pomocné postupy, které interpretaci usnadní a umožní také budoucím čtenářům lépe posoudit skutečný význam zjištěné korelace:

Grafická dokumentace. Korelační analýzu je vždy možné doplnit bodovým diagramem s hodnotami proměnných X a Y. Toto doporučujeme zejména, pokud nastane některá ze sporných situací popsaných výše. Autor analýzy i její čtenáři tak mohou snadno přímo posoudit rozdělení hodnot proměnných X a Y, a také interpretační význam zjištěné korelace.
Výpočet koeficientu determinace. Tato veličina udává, jaký podíl z celkové variability proměnné Y vysvětluje přímkový vztah s proměnnou X, nebo naopak jaký podíl variability X je vysvětlen lineárním vztahem s proměnnou Y. Koeficient determinace jednoduše spočítáme jako druhou mocninu korelačního koeficientu (R²). Obvykle se násobí 100 a výsledek je pak uváděn v procentech. V případě, že proměnné X a Y mají mezi sebou absolutní lineární závislost a jejich body v X-Y diagramu přesně leží na přímce, pak při znalosti hodnot jedné proměnné můžeme přesně vypočítat hodnotu proměnné druhé. Hodnota korelačního koeficientu je maximální možná (–1 nebo +1) a koeficient determinace je 100 %. Při hodnotě R = 0,8 je koeficient determinace 64 % a při R = 0,2 již pouze 4 %.
Výpočet intervalu spolehlivosti R. Šířka intervalu spolehlivosti velmi návodně ukazuje míru spolehlivosti odhadu korelačního koeficientu. Vzhledem k úzké provázanosti mezi výpočtem intervalu spolehlivosti a testováním statistické významnosti stojí za pozornost možnost přímo využít interval spolehlivosti k interpretaci významnosti R. V případě, že 95% interval spolehlivosti nezahrnuje nulu, lze tento výsledek považovat za ekvivalentní zamítnutí nulové hypotézy R = 0 na hladině významnosti α = 0,05.

Příklady 1–5 připravené pro tento díl seriálu dokumentují různé výsledky korelačních analýz a vliv velikosti vzorku na konečný výsledek a jeho interpretaci.