Analýza dat v neurologii LXXIV. - Neparametrický Spearmanův koeficient korelace

Download PDF

Authors: L. Dušek; T. Pavlík; Jiří Jarkovský ; J. Koptíková
Authors‘ workplace: Institut bio statistiky a analýz, LF MU, Brno
Published in: Cesk Slov Neurol N 2019; 82(2): 236-239
Category: Statistician‘s Window

V minulých dílech seriálu jsme se věnovali výkladu Pearsonova korelačního koeficientu, který je také označován jako parametrická nebo lineární korelace. Jeho hodnocení je totiž smysluplné pouze při splnění předpokladu normálního rozložení hodnot u obou do korelace vstupujících proměnných X a Y. Na příkladech v předchozím díle jsme doložili, že asymetrie rozložení nebo výskyt odlehlých hodnot zásadně zkreslují odhad tohoto korelačního koeficientu a také výsledek jeho statistického hodnocení. Jak tedy postupovat v situacích, kdy rozložení hodnot korelovaných proměnných není normální? V takovém případě můžeme buď proměnné transformovat nějakou normalizující funkcí anebo použijeme tzv. neparametrickou korelaci, která nevyžaduje normalitu rozložení hodnot. Nejčastěji používanou neparametrickou mírou korelace je Spearmanův korelační koeficient (r_s), jehož výkladu budeme věnovat tento díl seriálu.

**Příklad 1. Výpočet Spearmanova korelačního koeficientu.**

**Příklad 2. Testování statistické významnosti Spearmanova korelačního koeficientu.**

**Příklad 3. Výpočet 95% intervalu spolehlivosti Spearmanova korelačního koeficientu (data z příkladu 1).**

**Příklad 4. Srovnání hodnot Pearsonova a Spearmanova korelačního koeficientu.**

Připomeňme, že neparametrické statistiky jsou tzv. robustní, tedy více či méně necitlivé vůči odchylkám od normality analyzovaných proměnných. Neparametrické postupy typicky převádějí původní kvantitativní hodnoty proměnných na pořadí („rank“) a tím se od vlivu odlehlých hodnot oprošťují. Z tohoto postupu vychází i vztah pro výpočet Spearmanova korelačního koeficientu, který přibližuje příklad 1. Původní hodnoty proměnných X a Y jsou nejprve převedeny na pořadí (samostatně každá proměnná zvlášť) a následně je kalkulována hodnota korelace, která pracuje s diferencemi pořadí X a Y u jednotlivých objektů, kterých je N. Diference pořadí u i-tého řádku vstupní matice hodnot se označuje d_i. Výsledný vztah pro výpočet r_s je následující:

Jsou-li pořadí hodnot X a Y naprosto shodná, pak součet všech hodnot d_i je roven nule a korelační koeficient dosahuje své maximální kladné hodnoty, tedy 1. Obdobně, pokud by hodnoty X a Y byly řazeny přesně opačně, pak by výsledná hodnota r_s byla –1 (záporná korelace). Je patrné, že výpočet r_s je velmi jednoduchý a lze ho provést i bez zvláštního softwarového vybavení.

Ze vztahu pro výpočet je zřejmé, proč je Spearmanův koeficient v literatuře často označován jako pořadová korelace („rank correlation“). Z tohoto označení také vyplývá interpretace neparametrické korelace, která je rozdílná od korelace Pearsonovy. Pearsonův korelační koeficient pracuje s původními kvantitativními hodnotami X a Y a na jeho hodnotu mají vliv nejen stejný směr v hodnotách obou proměnných, ale také kvantitativní rozdíly hodnot X a Y od jejich průměru. Jde o korelaci, která dosahuje maxima, pokud je mezi X a Y čistý přímkový vztah. Hodnoty Spearmanova korelačního koeficientu odrážejí pouze stejný směr hodnot X a Y (koeficient je počítán z pořadí, nikoli z původních hodnot), a tedy nijak nesouvisí s tvarem vztahu obou proměnných. Hodnota r_s se tudíž může blížit maximu, i když mezi hodnotami X a Y není lineární vztah. Pro maximální neparametrickou korelaci stačí pouze, aby hodnoty obou proměnných rostly nebo klesaly ve stejném pořadí. Neparametrická korelace neodráží kvantitu, tedy „o kolik“ se mění hodnota X v závislosti na hodnotě Y.

Výše zmíněné rozdíly mezi parametrickou a neparametrickou korelací jsou především interpretační. Pokud jde o dosažitelné hodnoty koeficientů, není mezi oběma metodickými postupy žádný rozdíl. Spearmanův korelační koeficient může stejně jako Pearsonova korelace nabývat hodnot od –1 do +1. Hodnoty r_s blízké nebo rovny nule ukazují na situaci, kdy jsou pořadí hodnot X a Y náhodně zpřeházená a mezi oběma veličinami není žádný vztah.

Rovněž odhad intervalu spolehlivosti pro neparametrickou korelaci a test její statistické významnosti (testujeme nulovou hypotézu r_s = 0) jsou prakticky totožné s výpočty pro Pearsonův korelační koeficient. Konkrétní postupy dokládají příklady 2 a 3.

Jistou slabinou výpočtu Spearmanova korelačního koeficientu je práce s pořadími hodnot, neboť transformace původních hodnot proměnných do pořadí zásadně zužuje numerický rozsah hodnot. To se projeví zejména při práci s malými soubory dat, kdy říkáme, že neparametrické testy mají tzv. nižší sílu než testy parametrické. Tím je myšleno, že mají při stejné velikosti vzorku nižší schopnost rozpoznat neplatnost nulové hypotézy. Problémem také může být výskyt stejných hodnot, které pak v rámci proměnných X a Y dostávají stejná pořadí a ta se musí průměrovat. V takovém případě je v literatuře doporučován jiný vztah pro výpočet r_s:

Tento vztah je v podstatě vztahem pro výpočet Pearsonova korelačního koeficientu, avšak počítaného na pořadích vstupujících hodnot X a Y. Hodnota x_ri značí pořadí hodnoty x_i v rámci vzestupně uspořádaných hodnot X. Obdobně jsou takto převedeny hodnoty proměnné Y. Označení pomocí indexu r značí „rank“, tedy pořadí. Hodnoty x_r a y_r jsou potom průměrnými pořadími v rámci hodnot X a Y, hodnota s_xr s_yr je součinem směrodatných odchylek rovněž počítaných na pořadích hodnot obou proměnných.

Čtenáře nyní jistě napadne otázka, kdy je tedy v praxi lepší použít neparametrickou korelaci místo parametrické. Obecné pravidlo vyplývá již z výše uvedeného výkladu. Spearmanova korelace by měla být jednoznačně preferována u dat, kde vstupující proměnné nesplňují podmínky normálního rozdělení, zejména pokud se v nich vyskytují odlehlé hodnoty. Není-li z nějakého důvodu smyslem korelace prokázat přímkový vztah X a Y, je neparametrický korelační koeficient dobrou volbou. Při analýze konkrétních dat lze ovšem vždy použít současně obě korelace a srovnat jejich výsledky. Významné rozdíly mezi neparametrickou a parametrickou korelací by pak měly být varováním a signálem, že je třeba věnovat pozornost rozložení hodnot a možným zkreslením. Tyto situace se snaží přiblížit ukázky uvedené na příkladu 4.

prof. RNDr. Ladislav Dušek, Ph.D.

Institut biostatistiky a analýz, LF MU, Brno

e‑mail: dusek@iba.muni.cz