Analýza dat v neurologii
XXXIII. Bayesovská statistika v klinických a neurovědních aplikacích
Autori:
L. Dušek; T. Pavlík; J. Jarkovský
; J. Koptíková
Pôsobisko autorov:
Institut biostatistiky a analýz MU, Brno
Vyšlo v časopise:
Cesk Slov Neurol N 2012; 75/108(3): 383-388
Kategória:
Okénko statistika
V předchozích dílech seriálu jsme uvedli Bayesův teorém a základy bayesovské statistiky v obecných klinických aplikacích. Zároveň jsme čtenářům slíbili, že tuto poměrně složitou problematiku rozvineme výkladem, jaké má využití v klinickém a neurovědním výzkumu, kde zaujímá významné postavení. Již v díle XXXI jsme se zmínili o samostatné větvi tzv. výpočetních neurověd, která s bayesovskou statistikou pracuje v základním výzkumu i v aplikacích [1]. V tomto díle se pokoušíme přiblížit další užitečné aplikace bayesovského usuzování.
Bayesovská klasifikace na příkladu více jevů
Princip Bayesovy věty jsme vysvětlili v předchozím díle seriálu. V podstatě odhadujeme aposteriorní podmíněnou pravděpodobnost jevu A při nastání jevu B podle vztahu: P(A|B) = [P(B|A)P(A)]/P(B). Od samotného počátku tedy odhadujeme nikoli pouze pravděpodobnost jevu A jako takovou, ale pravděpodobnost jeho nastání při platnosti určité podmínky (nastání jevu B). Obecná, nepodmíněná pravděpodobnost jevu A, tedy P(A), je jedním ze vstupů výpočtu; hovoříme o tzv. apriorní pravděpodobnosti P(A). Jev B v pozici podmínky může nahradit jakkoli specifikovaná evidence E, např. platnost určité podmínky v datech. Pomocí znalosti podmíněné pravděpodobnosti P(B|A), nebo alternativně značeno P(E|A), tak zpřesňujeme odhad P(A|B), resp. P(A|E).
Princip bayesovské klasifikace vyplývá z výše uvedeného vztahu. Statistickou klasifikaci obecně definujeme jako výpočetní postup zaměřený na konstrukci modelů pro třídění a doplnění dat ve vazbě na jejich informační obsah. Řečeno jednodušeji: hledáme pravidla v datech, která nám umožní nějak účelově třídit hodnocené subjekty. Bayesovská klasifikace vychází z Bayesovy věty a tato pravidla definuje pomocí podmíněných pravděpodobností výskytu jevů. Rozhodujeme mezi různými a vzájemně se vylučujícími hypotézami (H1, H2, …, Hi) nebo jevy (A1, A2, …, Ai), které odpovídají definovaným třídám, a vybíráme nejpravděpodobnější variantu (třídu) s nejvyšší hodnotou P(Hj|E) nebo P(Aj|E). Dle výpočtu se tedy přikloníme k variantě (třídě) s hodnotou
P(E|Hi)P(Hi)
P(Hj|E) = maxi -------------------- .
P(E)
V díle XXXII jsme představili jednoduchý příklad pravděpodobnostní klasifikace mezi dvěma jevy (nastání komplikace po léčbě: ano/ne). Příklad 1, který uvádíme zde, rozvíjí téma na složitější situaci s více jevy, mezi nimiž máme rozhodnout. Příklad 1 také dokládá typický postup statistické klasifikace, která by se vždy měla skládat z tzv. fáze učení (zahrnuje vlastní vývoj modelu pro klasifikaci dat do daných tříd; učení probíhá na tzv. trénovacích datech nebo trénovacím souboru dat), a následně z tzv. fáze validace, kdy již dochází k aplikaci modelu na posuzování nových dat a jejich třídění do daných kategorií.
Bayesovské usuzování a klinické aplikace
Poměrně složitý příklad 1 dokládá, že Bayesův vzorec je cenným nástrojem pro klasifikaci subjektů, který může využít i matematický laik. Při pochopení významu vstupních pravděpodobností by dosazení do vztahu neměl být problém. Avšak v této jednoduchosti nesmí zaniknout hlavní přidaná hodnota Bayesova teorému. Jedná se o pravděpodobnostní provádění statistických odhadů, a to i v situacích, kdy vstupní informace nejsou přesné nebo nejsou vůbec dostupné. Samotná apriorní pravděpodobnost jevu A v cílové populaci hraje roli jakési váhy, kterou na výstupu zpřesňujeme. Bayesovská koncepce tak v sobě nese značnou adaptabilitu, neboť prováděné odhady je možné lokalizovat dle prevalence uvažovaného onemocnění (jevu) v různých populacích.
V této souvislosti také hovoříme o tzv. bayesovské dedukci či úsudku (Bayesian inference), nebo obecněji o bayesovském přístupu. V pojetí „klasické“ statistiky provádíme úsudky na základě pozorovaných souborů dat, většinou získaných v minulosti. Pracujeme s předem stanovenou hypotézou a také pravděpodobností, s jakou jsme „ochotni“ se mýlit, jinými slovy jaká pravděpodobnost chybného závěru je ještě přípustná. Bayesovský přístup otevírá cestu obecnějšímu usuzování, do kterého vstupuje objektivní i subjektivní vážení významu jednotlivých fakt. Na rozdíl od jiných popisných nebo klasifikačních metod nedává bayesovský přístup jen jedinou odpověď, ale nabízí pravděpodobnosti, s jakými jednotlivé hypotézy odpovídají provedeným pozorováním. Proto nachází bayesovská statistika uplatnění především v oborech, kde se definitivní závěry na základě retrospektivních dat potýkají s velkou neurčitostí, tedy v ekonomice, kriminalistice, managementu a samozřejmě také v medicíně.
V medicíně se bayesovský přístup uplatňuje zvláště v situacích, kdy musíme hodnotit pravděpodobnost určité hypotézy nebo nastání jevu, a na vstupu máme z objektivních důvodů pouze neurčité informace. Například pokud nemůžeme násobně opakovat experiment za statisticky stabilních podmínek anebo z etických důvodů, dále při odhadu prevalence chorob, predikce výsledku diagnostických testů při různé prevalenci choroby, zobecnění výsledků klinických studií apod. V přehledu literatury níže uvádíme další vybrané práce aplikující bayesovskou statistiku v neurovědách a některé významné aplikace dále popíšeme v následujícím textu.
Bayesovský mozek a bayesovské filtry
Výklad bayesovské pravděpodobnosti má blízko k neurologii a k neurovědám obecně. Řada výzkumů vychází z předpokladu, že nervový systém se při zpracování senzorických signálů řídí pravděpodobnostními modely, které lze reprezentovat pomocí bayesovské statistiky [2]. Tzv. bayesovský mozek představuje neurovědní metodický přístup usilující o vysvětlení kognitivních funkcí mozku pomocí statistických principů. Základem je předpoklad, že nervový systém musí data ze senzorických vjemů uspořádat do vlastního interního modelu, odrážejícího realitu vnějšího světa. Mozek je studován jako nástroj generující pravděpodobnostní rozhodnutí na základě podnětů z částečně neznámého vnějšího světa; pravděpodobnost daná bayesovským modelem je takto využívána pro studium behaviorálních i mentálních procesů [3,4].
Bayesovský mozek je modelem intuitivního rozhodování na základě znalosti podmíněných pravděpodobností určitých jevů. Např. jev A je vyhodnocen jako nebezpečný na základě toho, s jakou pravděpodobností (dáno přímou nebo předanou zkušeností) je spojen s určitým nebezpečím. Tento způsob kódování vjemů je také nazýván bayesovský filtr. Jako metoda je využíván např. při indexaci položek v databázích nebo při boji se spamem či jinou nežádoucí formou elektronické komunikace. Využijme této poměrně aktuální a všeobecně srozumitelné problematiky k vysvětlení funkcí bayesovských filtrů.
K pochopení funkce bayesovského filtru stačí následující princip: slova v těle nebo v záhlaví emailu ukládá počítač do databáze a označuje je podle toho, zda šlo nebo nešlo o spamovou komunikaci. Takto postupně vzniká tzv. zkušenostní neboli kalibrační databáze. Následně na základě pravděpodobnosti, zda se v historii dané slovo vázalo na spam, filtr vyhodnotí konkrétní zprávu jako spam nebo jako normální sdělení. Abychom mohli odhadnout odpovídající pravděpodobnosti, označme je Pspam a 1 – Pspam, potřebujeme vytvořit zdrojovou databázi spamů a normálních emailů. Na základě těchto vstupů (zkušeností) pak vyhodnocujeme slova v nově příchozím emailu a násobením jejich pravděpodobností Pspam získáváme hodnotu (výslednou pravděpodobnost), která nám pomůže rozhodnout, zda je email spíše spam, nebo ne [5].
Zdrojová databáze však rychle zastarává nebo se může stát nereprezentativní, a následně tak odchylovat filtr od správných rozhodnutí. To, co tvoří skutečnou přidanou hodnotu bayesovských filtrů, je schopnost průběžně pracovat se zpětnou vazbou. Někdy hovoříme o tzv. bayesovském učení jako o procesu postupné validace a modifikace modelu na základě nově dostupných hodnot. Opět zde vidíme rozdíl mezi klasickou, frekventistickou statistikou a bayesovským úsudkem, v jehož pojetí je pravděpodobnost určitého sledovaného jevu upravována podle nových podnětů, informací, důkazů (apriorní vstupy).
Další příklady praktického využití bayesovské statistiky
Možnost subjektivního nastavení apriorních pravděpodobností je bayesovskému přístupu často vytýkána, neboť u vědeckých prací se snažíme minimalizovat subjektivní vliv posuzovatele na vstupní informace. Apriorní pravděpodobnosti by tedy měly být co nejlépe podloženy, ideálně nějakými externími a nezávislými zdroji. Pocházejí-li vstupní informace z různých zdrojů, je velmi užitečné použít váženou kombinaci jejich vlivu, např. podle věrohodnosti, podobnosti anebo významu. Hodnocení relevance vstupních informací je velmi užitečným příkladem využití bayesovské statistiky, který jistě ocení všichni, kdo řeší problém spojování údajů z různých zdrojů. Často totiž v medicíně k studovanému problému získáme informace z randomizovaných prospektivních klinických studií (tzv. evidence level A), ale také z retrospektivních observačních studií a případně i z ad hoc pozorování. Pokud jsme schopni význam informačních zdrojů určitým způsobem vážit, pak nám bayesovská klasifikace nabízí jednoduchou možnost výsledky kombinovat.
Předpokládejme, že chceme odhadnout pravděpodobnost, že určitá informace I je důvěryhodná, přičemž data čerpáme ze tří různých zdrojů s různou věrohodností. Nastavme věrohodnostní váhy pro jednotlivé zdroje informací jako podmíněnou pravděpodobnost, že informace je spolehlivá, když o ní informuje daný zdroj: P(I|Z1) = 0,5; P(I|Z2) = 0,3 a P(I|Z3) = 0,2. K dispozici máme přehled článků s informací I ze všech tří zdrojů, a to v následujícím zastoupení: P(Z1) = 0,2; P(Z2) = 0,3 a nejčastěji zastoupený zdroj č. 3, P(Z3) = 0,5. Příklad reflektuje reálnou situaci, kdy zdroji 1 věříme nejvíce (jde např. o prospektivní, řádně plánované studie), nicméně prací tohoto typu máme nejméně ze všech. Pravděpodobnost, že z daného přehledu článků získáváme relevantní a důvěryhodnou informaci I, spočítáme následovně:
P(I) = P(I|Z1)P(Z1) + P(I|Z2)P(Z2) + P(I|Z3)P(Z3) = 0,5 × 0,2 + 0,3 × 0,3 + 0,2 × 0,5 = 0,29.
Pokud bychom tento výpočet srovnali se situací, kde budeme mít k dispozici více zdrojů v nejvěrohodnější třídě, tedy např. P(Z1) = 0,6; P(Z2) = 0,3 a P(Z3) = 0,1, pak získáme P(I) = 0,41. V podstatě takto počítáme pravděpodobnostní skóre důvěryhodnosti heterogenních informačních zdrojů, což můžeme využít při srovnávání různých rešerší nebo metaanalýz.
Kromě hodnocení věrohodnosti vstupních informací lze bayesovský přístup obdobně využít i při skórování důvěryhodnosti nebo relevance výstupů studií (tzv. Bayesian Credibility Analysis, např. [6]). Zde posuzujeme důvěryhodnost výsledků studie (aposteriorní pravděpodobnost) na základě jejích výsledků ve formě intervalů spolehlivosti pro odhadovanou statistiku a dále s pomocí apriorní znalosti těchto intervalů. Těmito aplikacemi se budeme zabývat v některém z dalších dílů seriálu.
Velmi užitečné je využití podmíněné pravděpodobnosti při studiu vzájemné závislosti výskytu náhodných jevů, sledovaných např. v 2 × 2 nebo obecněji v r × c kontingenčních tabulkách. Tyto metody umožňují promítnout do výpočtu apriorní informace o nezávislosti jevů. Jelikož zde výklad již přesahuje rámec našeho seriálu, omezíme se pouze na dva jednodušší příklady pravděpodobnostního hodnocení výskytu dvou jevů:
- Hodnotíme bezpečnost určitého balení léku v plastových lahvičkách. Z rozsáhlejšího auditu vyplynulo, že výskyt balení, které obsahuje problematickou koncentraci škodlivin, je 9 %, a tedy tuto situaci očekáváme u 9 lahviček ze 100. Toxikologické posudky říkají, že problematická expozice by u pacienta nastala v případě, pokud by po sobě zkonzumoval dvě vadná balení. Předpokládejme, že lahvičky při výdeji náhodně vybíráme z větších balení po 100 kusech. Jaká je pravděpodobnost, že pacientovi naráz vydáme dvě balení léku se zvýšenou hladinou škodlivin? K řešení využijeme podmíněnou pravděpodobnost. Aby mohla nastat situace, kdy obě vydané lahvičky budou vadné, musí toto nejprve nastat u první z nich (jev A). P(A) vypočítáme jako 9/100 = 0,09. U druhé vybírané lahvičky již vybíráme z 99 zbylých a teoreticky 8 z nich může být vadných. Tedy pravděpodobnost výběru druhé vadné lahvičky (jev B), když první vybraná byla vadná, je P(B|A) = 8/99 = 0,081. Výsledný výpočet pravděpodobnosti výběru dvou vadných lahviček po sobě je následující: P(A∩B) = P(B|A) × P(A) = 0,0073. Pravděpodobnost, že pacienta neúměrně zatížíme škodlivinami, je tedy při daném způsobu vydávání léku relativně nízká.
- Při podání určitého léku hrozí dva typy nebezpečné toxicity. Při sledování n = 100 pacientů jsme pozorovali výskyt jen toxicity typu I u 5 pacientů, jen toxicity typu II u 10 pacientů a oba typy současně nastaly u 20 pacientů. Zajímá nás, zda z těchto dat lze odvodit vzájemnou nezávislost anebo závislost obou typů toxicity. Typ I nastává u 25 pacientů, z čehož vyplývá P(I) = 0,25. Obdobně P(II) = 0,3 a pravděpodobnost nastání obou toxických reakcí současně P(I ∩ II) = 0,2. Podmínku pro nezávislost dvou jevů jsme v díle XXXI seriálu definovali jako P (I ∩ II) = P(I) × P(II). V našem případě ovšem zjevně platí P(I) × P(II) = 0,25 × 0,3 = 0,075 ≠ P (I ∩ II) = 0,2. Jinými slovy, oba jevy jsou vzájemně závislé. Má zde tedy smysl odhadnout podmíněné pravděpodobnosti vzájemného výskytu obou jevů: P(I|II) = P (I ∩II)//P(II) = 0,2/0,3 = 0,667 a obdobně P(II|I) = 0,8. Je patrné, že v obou případech jsou podmíněné pravděpodobnosti významně vyšší než nepodmíněné pravděpodobnosti výskytu obou jevů P(I) a P(II).
Využití bayesovské statistiky pro spojité proměnné
Jak jsme již konstatovali v díle XXII seriálu, bayesovské odhady a predikce lze v plném rozsahu použít i pro spojité proměnné. Jediným rozdílem je zde způsob, jak kalkulujeme pravděpodobnost výskytu hodnot spojité proměnné. Místo pravděpodobnosti výskytu náhodných jevů A a B do Bayesova teorému dosazujeme hustoty pravděpodobnosti výskytu určitých hodnot spojitých proměnných. U spojité proměnné X tak může jít například o pravděpodobnost výskytu:
- průměrných hodnot ± 2 nebo 3 směrodatné odchylky: µ ± 2σ; µ ± 3σ
- intervalu spolehlivosti pro odhad průměru: µ ± 1,96σe
- arbitrárně určeného intervalu hodnot daných např. rizikovými hranicemi: X > xa
Jako příklad uveďme odhad aposteriorní pravděpodobnosti výskytu rizikových hodnot koncentrace krevního markeru X za platnosti podmínky B, což může být např. relaps sledovaného onemocnění. Odhadujeme tak aposteriorní pravděpodobnost, že hodnoty markeru překročí hraniční hodnotu označenou xa:
P(X > xa|B) = [P(B|X > xa) × P(X > xa)] / P(B)
Pravděpodobnost překročení koncentrace xa u daného markeru P(X > xa) odhadujeme z distribuční funkce neboli z rozdělení pravděpodobnosti tohoto znaku. Z apriorních informací predikujeme aposteriorní pravděpodobnost překročení hranice xa při nastání relapsu onemocnění, tedy P(X > xa|B). Příklady 2 a 3 ukazují dva praktické výpočetní postupy pracující s kvantitativními znaky. Příklad 3 dokládá, že bayesovské klasifikátory jsou užitečné i pro složité soubory z klinické praxe obsahující kombinaci různých typů prediktorů s cílem zařazovat pacienty do více než dvou skupin. Výsledná tabulka nám přitom umožňuje velmi přehledně zhodnotit přesnost provedených predikcí a určit, kde nastala případná chyba.
Trochu historie závěrem
Při výkladu Bayesova teorému nemůžeme pominout aspoň krátký náhled do historie této významné kapitoly matematické statistiky. Teorém nese jméno po Thomasu Bayesovi (1701–1761), anglickém matematikovi a teologovi. Ačkoli Thomas Bayes za svého života publikoval teologické i matematické práce, jeho objevy v oblasti teorie pravděpodobnosti zůstaly ve formě poznámek a byly publikovány až po jeho smrti, a to jeho přítelem Richardem Pricem (1793: An Essay Towards Solving a Problem in the Doctrine of Chances) [7]. Následné rozpracování matematického systému pravděpodobnostní indukce je zásluhou velmi významného Bayesova následovníka, Pierre Simona Laplace (1749–1827), který v roce 1814 ve slavném spise Théorie analytique des probabilités definoval principy teorie pravděpodobnosti. Položil tak základ pojetí pravděpodobnosti jako nástroje pro popis všech problémů s neúplnou vstupní informací. Genialita Laplaceova přínosu spočívá v zobecnění teorie pravděpodobnosti, včetně případů, pro které opakovaný výskyt v experimentu nebo pozorovaný hromadný výskyt nemají smysl.
Je nepochybné, že Thomas Bayes přispěl k velmi užitečnému chápání pravděpodobnosti; tu nevnímal jen jako zobecněnou relativní četnost, ale jako nástroj popisu částečné znalosti systému. Doslova znovuzrození zažívá bayesovská pravděpodobnost od 60. let minulého století, odkdy je díky rozvoji počítačové techniky využívána v řadě vědních oborů. Je až fascinující, jakých rozměrů dosahuje zobecněná interpretace základů starých téměř 250 let. Tento metodický koncept našel významné uplatnění v psychologii, ve výzkumu behaviorálních a motorických funkcí, elektrofyziologii a také v teoretickém výzkumu způsobu kódování informací v centrálním nervovém systému [8,9]. Tento výzkum pak zpětně inicioval moderní metody biostatistiky a bioinformatiky, jako je strojové učení a výpočty na bázi umělé inteligence [10–12].
doc. RNDr. Ladislav Dušek, Dr.
Institut biostatistiky a analýz
MU, Brno
e-mail: dusek@cba.muni.cz
Zdroje
1. Trappenberg TP. Fundamentals of Computational Neuroscience. 2nd ed. Oxford: Oxford University Press 2010.
2. Knill D, Pouget A. The Bayesian brain: the role of uncertainty in neural coding and computation. Trends Neurosci 2004; 27(12): 712–719.
3. Fahlman SE, Hinton GE, Sejnowski TJ. Massively parallel architectures for A.I. Netl, Thistle, and Boltzmann machines. Proceedings of the National Conference on Artificial Intelligence. Washington DC 1983.
4. Jaynes ET. How Does the Brain Do Plausible Reasoning? In: Erickson GJ, Smith CR (eds). Maximum-Entropy and Bayesian Methods in Science and Engineering. Berlin: Springer 1988.
5. Kára M. Jak funguje bayesovský antispamový filtr? (1.). Lupa.cz : server o českém internetu [online] 2005 [cit. 2009-03-11]. Dostupný z URL: http://www.lupa.cz/clanky/jak-funguje-bayesovsky-antispamovy-filtr-1.
6. Matthews RAJ. Methods for assessing the credibility of clinical trial outcomes. Drug Information J 2001; 35(4): 1469–1478.
7. Edwards AWG. Commentary on the Arguments of Thomas Bayes. Scand J Stat 1978; 5(2): 116–118.
8. Rao RPN, Ballard DH. Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects. Nat Neurosci 1999; 2(1): 79–87.
9. Koerding KP, Wolpert DM. Bayesian integration in sensorimotor learning. Nature 2004; 427(6971): 244–247.
10. Citro G, Banks G, Cooper G. INKBLOT: a neurological diagnostic decision support system integrating causal and anatomical knowledge. Artif Intell Med 1997; 10(3): 257–267.
11. Lavrac N. Selected techniques for data mining in medicine. Artif Intell Med 1999; 16(1): 3–23.
12. Ghahramani Z. Unsupervised learning. In: Bousquet O, Raetsch G, von Luxburg U (eds). Advanced lectures on machine learning. Berlin: Springer-Verlag 2004.
Další doporučená literatura
Salamon R, Bernadet M, Samson M, Derouesne C, Gremy F. Bayesian method applied to decision-making in neurology – methodological considerations. Methods Inf Med 1976; 15(3): 174–179.
Miller RA. Medical diagnostic decision support systems – past, present, and future: a threaded bibliography and brief commentary. J Am Med Inform Assoc 1994; 1(1): 8–27.
Štítky
Detská neurológia Neurochirurgia NeurológiaČlánok vyšiel v časopise
Česká a slovenská neurologie a neurochirurgie
2012 Číslo 3
- Metamizol jako analgetikum první volby: kdy, pro koho, jak a proč?
- Fixní kombinace paracetamol/kodein nabízí synergické analgetické účinky
- Kombinace metamizol/paracetamol v léčbě pooperační bolesti u zákroků v rámci jednodenní chirurgie
- Tramadol a paracetamol v tlumení poextrakční bolesti
- Kombinace paracetamolu s kodeinem snižuje pooperační bolest i potřebu záchranné medikace
Najčítanejšie v tomto čísle
- Neurosyfilis
- Operační léčba syndromu tarzálního tunelu
- Oboustranná léze n. phrenicus manifestující se jako ortopnoe – kazuistiky tří případů
- Diagnostika a možnosti léčby Niemann-Pickovy choroby typ C