Analýza dat v neurologii

Česká verzia

Autoři: L. Dušek; T. Pavlík; J. Koptíková
Působiště autorů: Masarykova univerzita, Brno ; Institut biostatistiky a analýz
Vyšlo v časopise: Cesk Slov Neurol N 2009; 72/105(1): 83-86
Kategorie: Okénko statistika

XII. Úvod do statistického usuzování –⁠ postupy a terminologie

V minulých dvou dílech seriálu jsme se stručně seznámili s metodologií tzv. statistického usuzování, zjednodušeně tzv. statistického testování. V poněkud teoretickém výkladu stále dlužíme ilustrativní příklad výpočtu statistického testu, a proto takový uvádíme pro jednu z nejjednodušších experimentálních situací na obr. 1. Jde o provedení jednoho náhodného výběru z populace (n = 100) a o ověření hypotézy, zda se aritmetický průměr tohoto výběru rovná nějaké stanovené hodnotě, která v příkladu vystupuje jako konstanta µ (může jít například o klinicky hraniční hodnotu, normou danou hodnotu apod.). Vidíme tedy konkrétní problém, experimentální situaci a použitý konkrétní test. Každého jistě v tuto chvíli napadne otázka: takových typových situací jsou stovky, ne li tisíce, kdo tedy rozhoduje o správném testu, který má být aplikován? A jak se v tom vyznat?

**Obr. 1. Příkladem dokumentovaný standardní postup testování hypotéz.**

Ponechme stranou teoretické mudrování a podívejme se na statistické testování realisticky. V „reálném světě“ sedí uživatel, předpokládejme bez matematického vzdělání, před statistickým softwarem na obrazovce počítače a v podstatě provádí statistické testování mačkáním klávesy enter. Pojďme nyní stručně a pragmaticky sumarizovat minimální „know-how“, které je nutné mít:

Uživatel musí alespoň obecně znát základní typy uspořádání experimentů a pro ně vhodné testy. Z toho bohužel nejde ustoupit, bez znalosti názvů testů si totiž nevybere ani z nabídky software. Naštěstí není typologie experimentálních situací nijak složitá; my se jí budeme zabývat v následujících dvou dílech seriálu a tento prostor nám postačí k vysvětlení kompletní sady všeobecně používaných testů.
Analytik si musí být vědom skutečnosti, že statistický test není nic víc než matematický vzorec aplikovaný na konkrétní data, který má pravděpodobnostně ověřit platnost stanovené hypotézy. Existuje nenulová pravděpodobnost, že výsledek bude chybný (viz minulý díl seriálu a výklad chyb α a β).
Statistický test sám o sobě také nemůže rozhodovat o tom, zda je pozorovaný výsledek věcně významný. V minulých dvou dílech jsme uvedli příklady, které dokumentovaly, jak lehce získáme statisticky významný výsledek pro hodnoty, které nemají věcný význam.
Téměř každý statistický test má nějaké předpoklady týkající se vstupních dat. Tyto předpoklady nesmí analytik nikdy ignorovat, neznalost se neomlouvá. Platí pravidlo, že smysl má pouze aplikace „správného testu na správná data“. Následující text sumarizuje hlavní faktory, které správnou aplikaci testu určují.

Ověřovaná hypotéza

Je logické, že stanovená hypotéza je cílem testu a zároveň vyjadřuje smysl celého snažení. Formuluje otázku, kvůli které byl experiment jako takový proveden. Příklad na obr. 1 testuje hypotézu „rovnosti výběrového odhadu průměru a stanovené hodnoty µ“. Lidštěji řečeno se ptáme, do jaké míry je naměřený rozdíl mezi odhadnutým průměrem (odhadnut měřením parametru u 100 osob) a hodnotou µ náhodný; nebo ještě jinými slovy, zda hodnota µ patří do rozdělení dat naměřených u 100 lidí nebo nikoli. Jelikož zde nepředjímáme jednostrannou nerovnost (při neplatnosti hypotézy může být naměřený průměr vyšší i nižší než hodnota µ), pak takovou hypotézu nazýváme obecně oboustrannou. Jednostranná hypotéza by přímo vymezovala, že naměřený průměr je nižší nebo vyšší než hodnota µ. Smysluplným příkladem jednostranné hypotézy je např. testování obsahu karcinogenních látek v nějaké tkáni, kdy testujeme jednostrannou hypotézu, zda je obsah nenulový, resp. vyšší než je mez detekce analytické metody. Obsah jakékoli látky logicky nemůže být menší než nula a testujeme tedy jednostrannou hypotézu.

Testovaná hypotéza určuje volbu testu, ovlivňuje potřebný rozsah experimentu a samozřejmě také interpretaci výsledku. V terminologii klinických studií se místo výše popsaného členění oboustranných a jednostranných hypotéz používá poněkud jiná, exaktnější terminologie, kterou uvádí tab. 1.

**Tab. 1. Základní typy hypotéz pro konfirmační klinická hodnocení.**

Splnění předpokladů statistického testu

Téměř každý statistický test má ve výbavě nějaké předpoklady, které podmiňují jeho správnou aplikaci. Splnění předpokladů musíme umět doložit, často i samostatně otestovat. Vzniká tak poněkud úsměvná situace, kdy aplikaci správného testu podmiňuje jiný statistický test, který ověřuje předpoklady hlavního testu. Dále rozebereme nejpodstatnější typy předpokladů a následně uvedeme jednoduché řešení situace:

typ dat, na která má být test aplikován. Jsou li předepsána data ordinální nebo nominální, nemůžeme daný test použít na hodnocení spojitých hodnot. Někdy chybě zabrání již sám matematický vztah, do kterého při špatné volbě nejde dosadit, to ale neplatí vždy.
normalita rozdělení naměřených hodnot je téměř učebnicový předpoklad. Jelikož mnoho běžně používaných testů tento předpoklad má, velmi často vzniká až dojem, že normalita rozdělení podmiňuje jakékoli úspěšné testování. To samozřejmě není pravda, obecně takto může být předpokladem existence jakéhokoli modelového rozdělení. Na ověření těchto předpokladů existují samostatné testy.
homogenita rozptylu srovnávaných sku-pin. Tento předpoklad znamená, že daný test vyžaduje, aby rozptyl ve sku-pinách byl přibližně stejný, resp. přes-něji řečeno, aby se rozptyl nebo směrodatná odchylka mezi skupinami sta-tisticky významně nelišily. Jde o závažný předpoklad, a to rozhodně nejen z matematického hlediska. Srovnáváme li dvě skupiny pacientů v nějakém znaku a obě skupiny se podstatně liší ve variabilitě, tak to vyžaduje vysvětlení. Příčinou může být špatně provedený výběr nebo odlehlá hodnota. Nicméně je také možné, že například ovlivnění experimentální skupiny změnilo variabilitu znaku a více „rozrůznilo“ měřené hodnoty, například proto, že někteří pacienti na podnět odpověděli, jiní nikoli. Takové situace vyžadují samostatný rozbor. Na hodnocení homogenity rozptylu existují také statistické testy.
vyrovnané počty opakování srovnávaných skupin. Předpoklad, který samozřejmě souvisí s podobnou přesností a spolehlivostí odhadů v obou srovnávaných skupinách. Pokud to experimentální situace dovoluje, měly by být přibližně stejné počty opakování standardem.

Jak postupovat při problematickém typu rozdělení hodnot?

Otázka se váže na situace, kdy data nemají normální rozdělení nebo existují problémy s rozptylem, případně s odlehlými hodnotami. Zde můžeme čtenáře potěšit, a to hned dvakrát. Zaprvé, sám předpoklad normality je v praxi málokdy naplněn a nemáme li soubor dat o velikosti alespoň 100 opakování, stejně normalitu exaktně neprokážeme. Celá diskuze o normalitě se redukuje na prověření odlehlých hodnot a symetrie rozdělení (alespoň přibližná rovnost mediánu a průměru, pravidlo ± 3 s). Zvláště u malých souborů je v datech často viditelný problém, který brání nasazení testů vyžadujících normalitu rozdělení. A zde přichází slíbené druhé pozitivum –⁠ jednoduchým řešením je nasazení tzv. neparametrických testů.

Parametrické testy jsou založeny na matematickém vztahu, který provádí závěr o hodnotě parametru nějakého modelového pravděpodobnostního roz-dělení. Ukázkově nám opět poslouží příklad na obr. 1, kde hodnotíme aritmetický průměr jako parametr normálního rozdělení. Pokud námi naměřený soubor toto rozdělení nebude mít, budecelý test znehodnocen: např. průměr nebude využitelný jako odhad středu rozdělení, neboť bude ovlivněn odlehlými hodnotami; nebo odlehlé hod-noty silně zvýší numericky směrodatnou odchylku s, která je ve jmenovateli vztahu pro výpočet statistiky t. Při vysokém jmenovateli s nebude vztah schopen citlivě reagovat na rozdíl naměřeného průměru a hodnoty µ v čitateli apod.
Neparametrické testy naopak nepotřebují předpoklad o modelovém rozdělení, jsou na něm nezávislé. Jsou založeny buď na hodnocení četnosti odchylek hodnot, nebo převádějí hodnocená data na pořadí a s ním dále pracují (někdy se jim říká pořadové testy, „rank“). I tyto testy sice mají své předpoklady (např. shoda typu výbě-rového rozdělení srovnávaných sou-borů), ale jejich naplnění je v praxi mnohem jednodušší než u testů parametrických. Při běžných analýzách na-bídka neparametrických procedur plněkryje nabídku parametrických testů, stačí tedy pouze tyto testy znát a umět je nalézt v menu statistických software. Často jsou totiž umístěny na jiném místě nebo v jiném modulu než testy parametrické, takže uživatel musí vědět, co hledá a proč to hledá.

O neparametrických testech se často hovoří jako o robustnější alternativě testů parametrických. To znamená, že jsou méně náchylné na ovlivnění odlehlými hodnotami a jinými odchylkami v datech. Jejich aplikaci můžeme skutečně výrazně doporučit. Především laický uživatel, který si není jistý splněním předpokladů parametrických testů, neudělá použitím této alternativy žádnou chybu. Snad jedinou viditelnější nevýhodou je, že neparametrické testy ve srovnání s parametrickými jsou tzv. konzervativní. To znamená, že mají menší tendenci zamítat nulovou hypotézu, neboli mají menší sílu testu. U řady neparametrických testů ale není tento rozdíl oproti parametrickým nijak dramatický, a lze mu tedy jednoduše čelit mírným navýšením velikosti vzorku. Tyto postupy rozebereme v některém z dalších dílů seriálu.

Kromě neparametrické alternativy lze samozřejmě řešit problémy s rozdělením hodnot i jinak, např. vhodnou normalizující transformací. Transformacím dat jsme věnovali V. díl našeho seriálu. Např. často používaná logaritmická transformace nás zbaví asymetrie rozdělení zprava, anebo zajistí homogenitu rozptylu ve srovnávaných souborech. Někdy ale může být použití transformace problematické nebo svou složitostí zastíní i vlastní cíl výzkumu. Za těchto okolností lze opět doporučit nasazení neparametrických metod jako jednoduché a přímočaré řešení. Základní přehled nejběžnějších testů uvádí tab. 2, detailnímu popisu testování se budeme věnovat v dalších dílech seriálu.