Analýza dat v neurologii
LII. Odhad poměru šancí u složitějších tabulek četností

Česká verzia

Autoři: L. Dušek; T. Pavlík; Jiří Jarkovský ; J. Koptíková
Působiště autorů: Masarykova univerzita, Brno ; Institut biostatistiky a analýz
Vyšlo v časopise: Cesk Slov Neurol N 2015; 78/111(4): 491-493
Kategorie: Okénko statistika

V tomto díle seriálu reagujeme na podnět čtenáře, který po prostudování předchozích dílů 42–49 vznesl tento dotaz: Většina učebnicových příkladů pracuje jen s tabulkou četností 2 × 2. Jak ale postupovat při asociační analýze, kde je zdrojová tabulka s více řádky a sloupci?

Je logické, že reálné situace vedoucí ke studiu vztahu „expozice ‑⁠ účinek“ zdaleka nemusí vycházet pouze z nejjednodušší tabulky četností. Složitější tabulky označujeme obecně R × C, což ukazuje, že se skládají z více než dvou řádků a dvou sloupců (R: „rows“, C: „columns“). Taková tabulka dává do vzájemné souvislosti dva znaky, které nabývají hodnot v rámci více než dvou kategorií. Ačkoli jsou pro tyto složitější situace dostupné komplexnější techniky modelování (např. logistická regrese, log‑lineární modely, asociační modely), lze je zvládnout i relativně jednoduššími a standardními postupy. Některým z nich jsme se věnovali již v díle 22 našeho seriálu. Výhodou postupů, které zde budeme dokumentovat na konkrétních příkladech, je fakt, že experimentátor kontroluje logiku postupu a určuje, jaké kategorie bude dávat do vzájemného vztahu a jeho platnost testovat.

I zde můžeme testovat jednak platnost obecné hypotézy nezávislosti obou znaků (např. klasickým chí ‑⁠ kvadrát testem) a následně využít výpočet poměru šancí (OR) pro kvantifikaci míry vztahu „expozice ‑⁠ účinek“. Problém ale je, že ve složitější tabulce se nabízí více kategorií a tedy více odhadů OR. Bude tudíž záležet na nosných hypotézách experimentu a prioritách, které si při hodnocení stanovíme. V několika bodech stručně shrneme možné přístupy k problému, přičemž každý z nich je doplněn číselným příkladem.

Je možné postupovat následovně:

Pokusíme se tabulku zjednodušit, například postupným prováděním dílčích testů dobré shody (chí‑ kvadrát test). Dílčí testy povedou ke slučování řádků a sloupců, mezi kterými nebude prokázána závislost (četnosti takových kategorií lze sečíst, aniž přijdeme o významnou informaci). Po zjednodušení na výsledné tabulce vyhodnotíme vztah „expozice-účinek“ a kvantifikujeme jej pomocí poměru šancí. Tento postup dokumentuje příklad 1.
Rozdělíme tabulku R × C na dílčí tabulky četností 2 × 2 a ty separátně vyhodnotíme a odhadneme z nich plynoucí dílčí poměry šancí. Tomuto postupu se v mezinárodní literatuře někdy říká „cross‑ classification“ a v podstatě vede k vzájemnému testování vztahu všech jednotlivých kategorií, každé s každou. Výpočet je dokumentován v příkladu 2.
V posledním postupu nebudeme testovat vztah všech kategorií obou znaků, ale zvolíme adekvátní podmnožinu dílčích tabulek a vztahů a ty otestujeme. Standardně tento přístup vede ke zvolení jedné kategorie jako referenční a k ní jsou potom vztahovány odhady poměru šancí všech dalších kategorií. V epidemiologické literatuře se setkáváme s pojmem „case‑ referent study“, který je používán místo standardního „case‑ control study“. Volba referenční kategorie má tu výhodu, že všechny dílčí odhady OR jsou vzájemně srovnatelné, neboť se vztahují ke stejnému referenčnímu základu. Postup výpočtu dokumentují příklady 3a a 3b.

**Příklad 1. Zjednodušení R × C tabulky četností s pomocí dílčích testů dobré shody.**

**Příklad 2. Zjednodušení R × C tabulky četností pomocí testování všech možných dílčích tabulek (<i>„cross-classification“</i>).**

**Příklad 3. Zjednodušení R × C tabulky četností pomocí testování jednotlivých kategorií proti referenční kategorii.**

Je jistě patrné, že výše shrnuté postupy analýz jsou velmi rozdílné a vyžadují různý stupeň znalosti řešeného problému a experimentální situace. Rozdíly lze dokumentovat následovně:

Postup 1 v podstatě usiluje o snížení počtu kategorií v analýze, ideálně až na úroveň nejjednodušší možné tabulky 2 × 2, jak dokumentuje příklad 1. Pokud získaná experimentální data toto umožňují, jde jistě o efektivní řešení problému, které nadto doloží, že pro daný problém nemá dělení sledovaných znaků na více kategorií smysl.
Postup 2 je z navržených metod asi nejméně intuitivní a v podstatě analyzuje všechny možné dílčí kombinace tabulek, což může být vhodné, pokud nejsme schopni prioritizovat prováděná srovnání. Jde o jistou formu pilotní exploratorní analýzy, ze které teprve vzejdou podložené otázky a hypotézy.
Postup 3 je v odborné literatuře velice hojně využíván a lze jej označit za jistý druh standardu. Volba jedné z kategorií znaku za referenční (tzn. tato kategorie je označena jako reference ve všech testovaných dílčích tabulkách) umožní vztáhnout výsledky dílčích analýz ke stejnému základu. Výsledek je velmi dobře čitelný a srozumitelný. Nadto znalý experimentátor umí dobře zvolit referenční kategorii tak, aby dávala i věcný klinický či biologický smysl.

Snad jsme zvolenými příklady dostatečně odpověděli na otázku našeho čtenáře. Na závěr ještě uvádíme zmínku o zvláštní formě tabulek R × C, u kterých kategorie jednoho i obou asociovaných znaků nejsou nominálními položkami, ale vytvářejí ordinální škálu. V takovém systému jde vedle vlastní asociace znaků testovat i její trendovou složku, která může být informačně velmi důležitá. Tomuto problému se budeme věnovat v některém z blízkých dílů našeho seriálu.

doc. RNDr. Ladislav Dušek, Ph.D.

Institut biostatistiky a analýz

MU, Brno

e‑mail: dusek@iba.muni.cz