Analýza dat v neurologii

Download PDF

Authors: L. Dušek; T. Pavlík; Jiří Jarkovský ; K. Pokorová; J. Koptíková
Authors‘ workplace: Institut biostatistiky a analýz, LF MU, Brno
Published in: Cesk Slov Neurol N 2020; 83(1): 108-113
Category: Statistician‘s Window

LXXIX. Koeficient vnitrotřídní korelace

Tímto dílem seriálu otevíráme poslední část rozboru korelačních analýz, a to výkladem významu tzv. koeficientu vnitrotřídní korelace (intraclass correlation coefficient; ICC). Ačkoli tato statistika nese přímo v názvu slovo korelace, její význam je poněkud odlišný od klasických korelačních koeficientů. Korelací obecně myslíme míru síly a významnosti vztahu dvou nebo více kvantitativních (spojitých) proměnných. Analýza ICC je naopak základním nástrojem pro měření spolehlivosti (konzistence, stability) opakovaných měření či experimentů. ICC tedy nejčastěji vyjadřuje shodu několika opakovaných měření, jinými slovy jejich homogenitu či „reliabilitu“.

Ačkoli zde jde o jiný cíl než u klasické korelační analýzy, od tématu korelace nijak neodbočíme. Základní princip posuzování spolehlivosti měření je velmi jednoduchý a skutečně směřuje ke korelační analýze. Pokud totiž v určitém experimentálním plánu opakujeme stejná měření, měli bychom logicky mezi po sobě jdoucími pokusy dosáhnout vysoké korelace. Tato však nemusí být absolutní z důvodu náhodné variability výsledků opakovaných měření. Odhad hodnoty ICC umožní posoudit míru vzájemné podobnosti takových měření a případně rozhodnout o výběru těch nejspolehlivějších.

Význam odhadu ICC je však ještě širší a nemusí se omezovat pouze na série opakovaných měření prováděných za stejných podmínek. ICC může obecně posoudit vzájemnou podobnost či homogenitu jakýchkoli kvantitativních hodnot spojité náhodné veličiny seskupených do určitých skupin.

Typický experiment vedoucí k výpočtu vnitrotřídní korelace sleduje kvantitativní znak měřený u jedinců (subjektů) uspořádaných do skupin. Výpočet ICC hodnotí, jak hodně se hodnoty náležející do stejné skupiny vzájemně podobají. Tuto situaci ukazuje příklad 1, ze kterého je také patrný principiální rozdíl mezi ICC a klasickou korelací. Běžné korelační koeficienty vycházejí z dat, kdy jsou korelované proměnné měřeny u stejných subjektů a jsou znázornitelné v jednoduchém korelačním bodovém grafu. Klasická korelace primárně vychází z párově uspořádaných souborů, kde jsou hodnoty korelovaných proměnných vždy přiřazeny stejnému jedinci. Korelace typicky vyjadřuje vztah dvou rozdílných spojitých náhodných veličin, např. výšky (X) a hmotnosti lidské postavy (Y). Naopak ICC pracuje s hodnotami jediné proměnné (X) uspořádanými do skupin v rámci jednoho datového souboru. Proto ICC bývá někdy v literatuře označován za koeficient skupinové korelace.

**Příklad 1. Schematické znázornění primárních dat pro hodnocení vnitrotřídní korelace – srovnání rozdílů oproti klasické korelační analýze.**

Pro výpočet ICC lze v učebnicích nalézt různé vztahy, avšak pro základní pochopení se nám jeví jako nejlepší výpočet pracující s variabilitou opakovaných měření proměnné X. Koeficient vnitrotřídní korelace charakterizuje podobnost hodnot měřené veličiny ve skupinách (třídách, sériích) dat v porovnání s variabilitou celého souboru, ve kterém jsou tyto skupiny spojeny do celku. Lze jej tedy jednoduše definovat jako poměr variability mezi těmito skupinami a variability v celém souboru:

var(B) znamená variabilitu mezi skupinami či datovými sériemi (between groups; B) a var(W) značí variabilitu uvnitř skupin (within groups; W).

Obě složky variability lze sečíst a jmenovatel tak vyjadřuje hodnotu celkové variability spojeného datového souboru. Výše uvedený vztah můžeme též přepsat pro populační hodnotu ICC (hodnotu v cílové populaci) takto:

σ²_β je rozptyl hodnot způsobený vlivem roztřídění do skupin (meziskupinová variabilita) a σ²_E je rozptyl hodnot uvnitř těchto skupin (vnitroskupinová variabilita).

Pouze pro úplnost tohoto výkladu zde přiblížíme další výpočet ICC pomocí nástrojů analýzy rozptylu (viz též příklad 5). Pro výpočet var(B) a var(W) z primárních dat ve formátu tabulky naměřených hodnot proměnné X o r řádcích (r vyjadřuje hodnocené skupiny) a s sloupcích (měření v rámci skupiny) využijeme vztahu:

Těmito výpočty ovšem nechceme čtenáře odradit od dalšího čtení. Pouze tak dokumentujeme, že ICC je možné kalkulovat jednoduchým dosazením primárních dat. To ovšem dnes již není nutné, výpočet ICC provede téměř každý statistický software. Při použití těchto nástrojů je však nutné znát podstatu výpočtu a volit kalkulaci odpovídající nastavení experimentu.

Výpočet ICC tedy provádíme přes odhady rozptylu měřené veličiny X, přičemž se rozlišuje rozptyl uvnitř jednotlivých tříd (sérií měření) a rozptyl celkový, kalkulovaný na spojeném souboru dat. ICC vyjadřuje homogenitu či nehomogenitu rozptylu X v jednotlivých třídách. Z výše uvedených vztahů vyplývají některé podstatné vlastnosti ICC, které shrnujeme v následujících bodech a dokumentujeme na příkladu 2:

ICC nabývá hodnot od 0 do 1. Na rozdíl od klasické korelace tedy ICC nemůže nabývat záporných hodnot. Maximální teoreticky dosažitelná hodnota ICC je +1, které koeficient dosáhne při nulové variabilitě (rozptylu) hodnot X uvnitř skupin (všechna měření v rámci skupin jsou identická, mají stejnou hodnotu X). Datová sada vykazuje úplnou homogenitu hodnot uvnitř skupin a veškerá variabilita souboru je asociována s rozdíly mezi skupinami. Taková situace je samozřejmě extrémní a v praxi krajně nepravděpodobná, nicméně ilustruje fakt, že rostoucí hodnota ICC značí rostoucí podíl variability mezi hodnocenými skupinami na celkové variabilitě hodnot X v datovém souboru. Neboli s rostoucí hodnotou ICC roste konzistence (podobnost) měření v rámci skupin.
Výpočet ICC vychází z analýzy rozptylu, nikoli ze středních hodnot rozdělení proměnných. Výpočet probíhá na základě rozkladu celkového rozptylu datového souboru na složku vnitroskupinovou (hodnotí rozdíly, variabilitu, mezi jedinci či subjekty měření) a meziskupinovou (variabilita mezi skupinami, které představují třídění souboru do kategorií vyšší úrovně).
Hodnotu ICC lze vynásobit 100 a vyjádřit ji tak v %. Jde o % celkové variability datového souboru, které připadá na rozdíly mezi skupinami.
Příklad 2a ilustruje experiment s vysokou hodnotou ICC, kde se hodnoty X v rámci skupin vzájemně podobají a podíl variability mezi skupinami na celkovém rozptylu hodnot v datovém souboru je vysoký. Příklad 2b naopak zobrazuje situaci s vysokou variabilitou hodnot X uvnitř skupin, které se od sebe v důsledku toho vzájemně nijak neodlišují. Hodnoty nejsou v rámci skupin homogenní a hodnota ICC je nízká.

Interpretaci hodnot ICC samozřejmě určují zejména design a cíl experimentu, tedy za jakým účelem jsou hodnoty roztříděny do skupin a proč rozdíly mezi skupinami sledujeme:

Jedním z modelů je rozdělení datového souboru do experimentálních skupin, u kterých očekáváme vliv na variabilitu hodnot X. Při studiu charakteristik nemocí to mohou být např. geografická území, sociální kategorie obyvatel nebo typ domácností. Jde o objektivně dané kategorie, v rámci kterých má smysl zkoumat stupeň homogenizace hodnot X.
Jiný modelový příklad představuje experiment sledující vnitro -⁠ či meziskupinovou opakovatelnost měření. V takovém modelu generují skupiny hodnot X jednotliví pozorovatelé či experimentátoři, kteří hodnoty X opakovaně měří. ICC vyjadřuje vnitřní konzistenci jejich výsledků. ICC je využitelný jako míra opakovatelnosti současně pro více než dvě série měření (neomezeně ve výpočtu můžeme zahrnout 1, …, s pozorovatelů). Vysoká hodnota ICC blízká 1 zde znamená vysokou podobnost opakovaných měření jednotlivých pozorovatelů. Naopak hodnota ICC blízká nule ukazuje na situaci, kdy opakovaná měření získaná od téhož pozorovatele si nejsou podobná.

**Příklad 2. Schematické znázornění primárních dat vedoucích k vysoké a naopak nízké hodnotě koeficientu vnitrotřídní korelace (ICC).**

Vzorová data a hodnocení vnitrotřídní korelace dokumentují příklady 3–5. Z uvedených postupů vyplývá, že bodový odhad hodnoty ICC lze standardně doplnit odhadem intervalu spolehlivosti a též testem statistické významnosti. Nulovou hypotézou v těchto testech je předpoklad nulové hodnoty ICC, přičemž statistická významnost znamená hodnotu ICC prokazatelně rozdílnou od nuly. Avšak kromě těchto standardních statistických postupů se v literatuře velmi často hodnotí přímo absolutní hodnota ICC, zejména u testů konzistence v opakovaných měřeních. Hodnoty ICC menší než 0,5 značí nízkou konzistenci, ICC v intervalu 0,5–0,75 jsou označovány za mírnou až střední konzistenci, ICC nad 0,75 indikuje vysokou konzistenci a hodnoty koeficientu nad 0,9 značí excelentní, vysoce průkaznou konzistenci měření.

**Příklad 3. Koeficient vnitrotřídní korelace (ICC) srovnávající dva hodnotitele.**

Příklad 4. Modelová ukázka výpočtu hodnoty koeficientu vnitrotřídní korelace (ICC) doplněná odhadem 95% intervalu spolehlivosti a statistickými
testy (data z příkladu 3). — **Příklad 4. Modelová ukázka výpočtu hodnoty koeficientu vnitrotřídní korelace (ICC) doplněná odhadem 95% intervalu spolehlivosti a statistickými testy (data z příkladu 3).**

**Příklad 5. Koeficient vnitrotřídní korelace (ICC) srovnávající více hodnotitelů.**

Příklady 2–5 záměrně ukazují různé modelové situace, pro které má smysl hodnotit vnitrotřídní korelaci. Snad se nám podařilo doložit, že možnosti aplikace ICC jsou velmi různorodé a v podstatě nelze uvést nějaké univerzální pravidlo pro interpretaci hodnot ICC. Vždy jde o ukazatel homogenity hodnot měřených v rámci určitých skupin. A průkaz této homogenity může mít jak pozitivní, tak negativní interpretaci dle smyslu a cíle experimentu. Např. prokážeme-li vysokou homogenitu a konzistenci měření různých pozorovatelů, je to jistě pozitivní zpráva pro danou testovanou metodu, neboť ta vede k opakovatelným, a tedy spolehlivým výsledkům. Avšak příklad 2 tohoto dílu seriálu ukazuje klinickou studii, kde lze průkaz homogenity považovat za indikaci možného rizika zkreslení. Pokud pacienty zařazené do multicentrické studie rozdělíme do skupin dle nemocnice, kde byli léčeni, pak nemocnice představují skupiny, tedy vyšší úroveň třídění souboru. Pokud se v měřeném znaku (léčebná odpověď, výskyt komplikací, doba hojení po operaci apod.) prokáže vysoká vzájemná podobnost pacientů v rámci nemocnic, může to znamenat, že vliv konkrétních center na výsledky studie není náhodný a může být zdrojem zkreslení. Příklad 2a ukazuje, že se hodnocená změna tělesné teploty pacientů v rámci konkrétních nemocnic vzájemně podobá a některé nemocnice čelí konzistentně vyššímu nárůstu jejích hodnot. Naopak výsledky studie zobrazené v příkladu 2b nejsou zatíženy rozdíly mezi nemocnicemi a variabilita jedinců v rámci nemocnic odpovídá žádoucímu náhodnému chování, nezávislému na konkrétním centru.

Na závěr tohoto dílu si dovolíme čtenářům doporučit velmi přínosné pojednání rozebírající význam různých analýz opakovatelnosti a spolehlivosti experimentálních měření, které v roce 2016 vydali autoři Koo a Li. Jistě zde zaujme i velmi recentní datum této práce, které svědčí o tom, že problematika měření spolehlivosti je v klinickém výzkumu stále aktuální a živá. Je to až s podivem, když uvážíme, že koncept analýzy rozptylu do skupin tříděných dat, a tedy i koncept výpočtu ICC, vznikl z pera R. A. Fishera v 50. letech minulého století (Fisher 1954) a nejvýznamnější primární práce k hodnocení spolehlivosti opakovaných měření byly publikovány v druhé polovině minulého století (Bartko 1966; Shrout a Fleiss 1979; Bland a Altman 1986). Přesto se k této problematice více či méně kriticky vrací řada současných odborníků na metodiku klinického výzkumu (např. Bruton et al 2000; Field 2005; Lee et al 2012). Jejich práce potvrzují, že spolehlivost a opakovatelnost sledování mají zejména v klinické praxi zásadní význam. K této problematice se tedy vrátíme ještě v dalších dílech seriálu.

prof. RNDr. Ladislav Dušek, Ph.D.

Institut biostatistiky a analýz, LF MU, Brno

e‑mail: dusek@iba.muni.cz

Sources

Bartko JJ. The intraclass correlation coefficient as a measure of reliability. Psychol Rep 1966; 19(1): 3–11. doi: 10.2466/ pr0.1966.19.1.3.
Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986; 1(8476): 307–310.
Bruton A, Conway JH, Holgate ST. Reliability: what is it, and how is it measured? Physiotherapy 2000; 86(2): 94–99. doi: 10.1016/ S0031-9406(05)61211-4.
Field AP. Intraclass correlation. In: Everitt BS, Howell DC. Encyclopedia of statistics in behavioral sciences. Chichester: Wiley 2005.
Fisher RA. Statistical methods for research workers. Edinburgh: Oliver and Boyd 1954.
Koo TK, Li MY. A Guideline of selecting and reporting intraclass correlation coefficients for reliability research. J Ciropr Med 2016; 15(2): 155–163.
Lee KM, Lee J, Chung CY et al. Pitfalls and important issues in testing reliability using intraclass correlation coefficients in orthopaedic research. Clin Orthop Surg 2012; 4(2): 149–155. doi: 10.4055/ cios.2012.4.2.149.
Shrout PE, Fleiss JL. Intraclass correlations: uses in assessing rater reliability. Psychol Bull 1979; 86(2): 420–428. doi: 10.1037/ / 0033-2909.86.2.420.