#PAGE_PARAMS# #ADS_HEAD_SCRIPTS# #MICRODATA#

preLekára.sk

Analýza dat v neurologii - XXXII. Bayesovská vs klasická statistika v klinických aplikacích

Stiahnuť PDF

Autori: L. Dušek; T. Pavlík; Jiří Jarkovský ; J. Koptíková
Pôsobisko autorov: MU, Brno ; Institut biostatistiky a analýz
Vyšlo v časopise: Cesk Slov Neurol N 2012; 75/108(2): 255-258
Kategória: Okénko statistika

Předcházející díl seriálu otevřel významné téma tzv. bayesovské statistiky a bayesovských odhadů. Připomeňme zde, že jde o metodický koncept odhadující pravděpodobnost výskytu určitého jevu na základě znalosti jeho vztahu (asociace) s jiným jevem nebo s více jinými jevy. V nejjednodušším případě tak odhadujeme pravděpodobnost jevu A při nastání jevu B podle tzv. Bayesovy věty:

Hodnota P(A) zde představuje tzv. apriorní pravděpodobnost nastání jevu A, kterou známe nebo odhadujeme předem a výpočtem ji upřesňujeme. Dosazením do výše uvedeného vztahu získáváme tzv. aposteriorní pravděpodobnost nastání jevu A při nastání jevu B, tedy P(A|B). Při výpočtu využíváme znalosti vztahu obou jevů, konkrétně znalosti podmíněné pravděpodobnosti výskytu jevu B při nastání jevu A, tedy P(B|A). Pravděpodobnost jevu B ve vztahu doplňujeme dle tzv. věty o úplné pravděpodobnosti, tedy jako součet pravděpodobností nastání jevu B při nastání i nenastání jevu A: P(B) = P(B|A)P(A) +P(B|not A)P(not A).

V díle č. XXXI seriálu jsme uvedli četné příklady klinické aplikace Bayesovy věty, která u řady problémů vede k velmi přesnému a dobře interpretovatelnému odhadu chování určitých jevů v cílových populacích. V tomto díle se pokusíme výklad rozšířit o další aplikace, které mají velmi blízko i k neurovědnímu výzkumu.

Příklady aplikace Bayesovy věty

V této kapitole uvedeme Bayesovu větu z jiného pohledu, než jak jsme ji představili v předchozím díle. Místo jevu A uveďme hypotézu H a místo jevu B evidenci E. Potom výše uvedený Bayesův vztah můžeme přepsat do tvaru, kdy odhadujeme aposteriorní pravděpodobnost P(H|E), tedy pravděpodobnost platnosti hypotézy H, pokud máme k dispozici evidenci E. Apriorní pravděpodobnost P(H) získáme z literatury, z dostupných dat, z posudků expertů nebo v případě nejistoty ji nastavíme nerozhodně jako rovnu 0,5. Znalost vstupních pravděpodobností pro výpočet nemusí být přesná (ale samozřejmě by měla být co nejpřesnější), pokud potřebné informace o P(H) nemáme, lze jako pilotní vstup využít např. expertní odhady. Postupně, s rostoucí znalostí problému a zkoumané populace, výsledek zpřesňujeme. Dále musíme pro výpočet znát pravděpodobnost výskytu evidence E a pravděpodobnost platnosti evidence E při platnosti hypotézy H, tedy P(E) a P(E|H). Bayesova věta je v tomto smyslu vyjádřena jako:

Obdobně můžeme např. zvažovat pravděpodobnost, že hypotéza H je platná při určitých pozorovaných datech (D), tedy pravděpodobnost P(H|D) apod. Taková zadání již dané téma nijak nerozvíjejí, jde o stále stejný výpočet aplikovaný v různých situacích. Z hlediska laického uživatele je ovšem mnohem důležitější otázka, kdy lze tento výpočet použít a kdy má smysl i jako alternativa tzv. klasické statistiky. Klasickým neboli frekventistickým způsobem rozumíme provádění odhadů na základě mnohonásobně opakovaných náhodných experimentů (viz též díl XXXI seriálu).

Použití bayesovského odhadu je smysluplné, pokud známe jev B, či evidenci E, který je ve známém vztahu ke zkoumanému jevu A, či hypotéze H. Využitím této informace zpřesňujeme odhad chování (pravděpodobnosti výskytu) jevu A. Pokud by A a B byly jevy nezávislé, pak by platilo, že P(A|B) = P(A) a naopak P(B|A) = P(B), a výše uvedený vztah by ztratil smysl. V díle XXXI jsme uvedli příklad výpočtu, kde byla informace o pravděpodobnosti kuřáctví mezi onkologickými pacienty využita k odhadu pravděpodobnosti výskytu rakoviny u kuřáků apod. Na tomto příkladu krátce zopakujme i největší přidanou hodnotu bayesovských odhadů, tedy aplikovatelnost v situacích, kdy nemáme dostatečná vstupní data pro provedení odhadů klasickou statistikou. Klasická statistika by totiž zde položený úkol řešila provedením studie zaměřené na kuřáky, u kterých by byla zkoumána přítomnost zhoubného nádoru. Taková studie by ovšem byla velmi náročná, časově i finančně, a nadto by zatěžovala nádorovou diagnostikou i zdravé kuřáky. Přitom dle výše uvedeného Bayesova vztahu údaj o pravděpodobnosti výskytu rakoviny (jev A) u kuřáka (jev B), tedy P(A|B), získáme, pokud jsme schopni získat apriorní údaje o:

P(A) a P(B), což jsou data dostupná například z oficiálních populačních statistik,
P(B|A), tedy pravděpodobnost výskytu kuřáků mezi již diagnostikovanými onkologickými pacienty; získání tohoto údaje je jistě jednodušší (např. ze záznamů v nemocnicích) než přímý odhad opačné podmíněné pravdě-podobnosti.

Za určitých okolností je provedení klasického statistického měření výskytu sledovaného jevu doslova nemožné, a aplikace bayesovských odhadů tudíž není pouze alternativou klasických postupů. Téměř učebnicovou aplikací Bayesovy věty je odhad pravděpodobných výsledků diagnostického testu v populacích s různou prevalencí diagnostikované choroby. V praxi by bylo nemožné opakovat validační studie diagnostického testu ve všech populacích lišících se pouze prevalencí dané choroby. Příklad 1 ukazuje několik variant těchto výpočtů pro různě nastavené diagnostické hodnoty testů a prevalenci sledované choroby v cílové populaci.

Věta o úplné pravděpodobnosti a naivní bayesovský klasifikátor

Příklad 1: Využití Bayesovy věty pro odhad pravděpodobných výsledků diagnostického testu v populacích s různou prevalencí diagnostikované choroby. — Příklad 1: Využití Bayesovy věty pro odhad pravděpodobných výsledků diagnostického testu v populacích s různou prevalencí diagnostikované choroby.

Dosud vysvětlované příklady pracovaly s nejjednodušší možnou variantou, kdy zkoumáme pravděpodobnost výskytu jevu A (binární proměnná typu ano/ne) při výskytu jevu B (opět proměnná typu ano/ne). Anebo pravděpodobnost platnosti hypotézy H (platí/neplatí) při nastání určité evidence E (přítomna/nepřítomna). V praxi se ale často setkáme se situací, kdy pravděpodobnost výskytu jevu A sledujeme při výskytu více různých jevů B₁, …, B_k, což zkráceně zapisujeme jako B_i, i = 1, ..., k. Předpokládejme pro jednoduchost, že jednotlivé jevy B_i jsou vzájemně nezávislé. Potom opět platí věta o úplné pravděpodobnosti (zde na rozdíl od vztahu uvedeného výše vyjádřena ve smyslu úplné pravděpodobnosti jevu A):

P(A) = P(A|B₁)P(B₁) + P(A|B₂)P(B₂) + ………. + P(A|B_k)P(B_k)

Doufáme, že jsme neodradili čtenáře, kteří nemají rádi komplikované matematické vztahy. Aplikace výše uvedené rovnice je stále ještě laicky zvládnutelná. Pokusíme se to dokumentovat na příkladu. Na léčbě určité nemoci se mohou podílet tři léčebné modality, přičemž každá může s určitou pravděpodobností způsobit určitou komplikaci (jev A). Tři aplikované modality (B₁, B₂, B₃) jsou ve svém účinku zcela nezávislé a ne všichni pacienti nutně absolvují všechny tři. Populační data udávají následující hodnoty: první modalitu absolvuje 60 % pacientů, druhou 40 % a třetí jen 20 % pacientů. Z toho odvodíme, že P(B₁) = 0,6, P(B₂) = 0,4 a P(B₃) = 0,2. Dále jsme z publikovaných klinických studií schopni zjistit, s jakou pravděpodobností jednotlivé modality způsobují sledovanou komplikaci A. Půjde o podmíněnou pravděpodobnost P(A|B_i). Nastavme P(A|B₁) = 0,3, P(A|B₂) = 0,2 a P(A|B₃) = 0,1. Klíčová otázka je, jaká je pravděpodobnost, že pacient náhodně vybraný z populace léčených bude mít komplikaci A? Tato otázka má velký smysl například za situace, kdy plánujeme určitý výzkum (např. prevalenční studii) a ptáme se, kolik jedinců musíme z dané populace vybrat, abychom jev A dobře postihli. Výpočet provedeme podle výše uvedené věty o úplné pravděpodobnosti:

P(A) = P(A|B₁)P(B₁) + P(A|B₂)P(B₂) + …… + + P(A|B_k)P(B_k) = 0,3 × 0,6 + 0,2 × 0,4 + + 0,1 × 0,2 = 0,28.

Můžeme tedy očekávat, že vybereme-li zcela náhodně z této populace 100 léčených pacientů, 28 z nich bude trpět komplikací A. Další aplikace věty o úplné pravděpodobnosti přináší příklad 2.

Příklad 2. Využití věty o úplné pravděpodobnosti pro odhad výskytu onemocnění ve sledované populaci. — Příklad 2. Využití věty o úplné pravděpodobnosti pro odhad výskytu onemocnění ve sledované populaci.

S využitím výše uvedeného příkladu můžeme odvodit tvar Bayesova teorému pro situaci, kdy sledujeme jev A, který může být podmíněn více vzájemně nezávislými jevy B_i. Dostáváme tzv. naivní bayesovský klasifikátor, který odhaduje pravděpodobnost výskytu jevu A ve vazbě na různé podmiňující jevy B₁,…,B_k. Tato metoda se nazývá naivní proto, že teoreticky předpokládá absolutní nezávislost všech podmiňujících jevů. Tento předpoklad sice u většiny praktických aplikací splněn není, ale při dostatečném počtu jevů B_i dosahuje výpočet uspokojivé přesnosti. Jelikož u jevu A v našem případě rozlišujeme pro jednoduchost pouze dva stavy (jev A nastal/nenastal), pak zde klasifikujeme právě do dvou tříd, tedy A a not A. Odhadujeme aposteriorní pravděpodobnost nastání jevu A při nastání všech jevů B₁,…,B_k:

anebo v jiném vyjádření odhadujeme aposteriorní pravděpodobnost platnosti hypotézy H při platnosti všech uvažovaných evidencí (E_i):

Testujeme-li (klasifikujeme) takto více hypotéz (H₁, …H_j) a pro zjednodušení použijeme pouze jednu evidenci, E, pak nejpravděpodobnější je hypotéza s maximální aposteriorní pravděpodobností (značená jako H_MAP –⁠ maximální aposteriorní pravděpodobnost). Tedy podle naivního klasifikátoru odvozeného z Bayesovy věty jde o hypotézu, pro kterou platí:

přičemž uvedený vztah bychom opět mohli rozvést pro více zvažovaných evidencí E₁,…,E_k.

Příklad 3 přináší ukázku použití naivního bayesovského klasifikátoru v klinické praxi, a to pro jednu zvažovanou evidenci a pro více evidencí.

Příklad 3: Využití naivního bayesovského klasifikátoru pro predikci zdravotního stavu pacientů. — Příklad 3: Využití naivního bayesovského klasifikátoru pro predikci zdravotního stavu pacientů.

Všimněme si, že využití Bayesovy věty je velice intuitivní a umožňuje i jistou adaptaci na zkoumaný problém a data. Pokud apriorní informace získáváme přímo z experimentálně získaných dat, nazýváme tento soubor trénovací a vlastně na něm nastavujeme parametry Bayesova klasifikátoru pro vlastní využití v neznámém terénu.

Při aplikaci Bayesovy věty nemusíme zkoumat pouze jevy binární (tedy např. výskyt jevu A ano/ne), ale i chování spojitých, a tedy kvantitativních proměnných. Hodnoty těchto náhodných proměnných lze modelovat pomocí známých rozdělení pravděpodobnosti, např. pomocí normálního rozdělení. Odhadujeme tak např. aposteriorní pravděpodobnost výskytu určitého intervalu hodnot náhodné veličiny X při platnosti evidence E, např. P(X<x_i|E). Využíváme přitom stejné vstupní pravděpodobnosti, jako u všech dosud uvedených příkladů, tedy apriorní pravděpodobnost P(X<x_i) a podmíněnou pravděpodobnost P(E|X<x_i). Výpočet lze samozřejmě rozšířit i pro spojité proměnné v roli evidence E, a podmíněné pravděpodobnosti tak zkoumají vzájemné vztahy dvou nebo i více spojitých proměnných. Avšak tato problematika již přesahuje plánovaný rozsah našeho seriálu. V příštím díle tuto část uzavřeme ukázkami aplikace bayesovské statistiky v neurovědách.

doc. RNDr. Ladislav Dušek, Dr.

Institut biostatistiky a analýz

MU, Brno

e-mail: dusek@cba.muni.cz

Štítky

Detská neurológia Neurochirurgia Neurológia

Článek Posturálna instabilita, poruchy chôdze a pády pri Parkinsonovej chorobe

Článek Sulcus temporalis superior a jeho funkční význam

Článek Algoritmus vyšetření likvoru v návaznosti na doporučení Sekce neuroimunologie a likvorologie České neurologické společnosti JEP

Článek Využití perkutánní endoskopické gastrostomie – přehled indikací, popis techniky a současné trendy v neurologii

Článek Diagnostické možnosti zobrazovacích metod v hodnocení morfologického korelátu kognitivních změn u pacientů s roztroušenou sklerózou

Článek Poruchy výživy a metabolizmu u Parkinsonovy nemoci

Článek Měření kognitivního deficitu u pacientů po ošetření mozkových aneuryzmat

Článek Polysomnografické nálezy u dětí s poruchou pozornosti a hyperaktivitou (ADHD) vyšetřovaných pro poruchu spánku

Článek Léčba neurogenního hyperaktivního detruzoru po spinálním poranění aplikací botulinumtoxinu A. Porovnání endoskopické subslizniční a intramuskulární aplikace

Článek Naše zkušenosti s laterálním supraorbitálním přístupem při operacích mozkových aneuryzmat

Článek Diagnostika a léčba demence českými neurology a psychiatry

Článek Endoskopická ventrikulostomie III. komory v léčbě hydrocefalu u dětí s mozkovými tumory – zkušenosti jednoho centra

Článek Zrakové funkce nedonošených dětí s perinatálním mozkovým postižením

Článek Obstrukční spánková apnoe a CPAP – má význam řešit nosní průchodnost?

Článek Detekcia anaplastických ložísk v kontrastnou látkou sa nevýrazne farbiacich infiltratívnych gliómoch pomocou 5-aminolevulovej kyseliny – správa o piatich prípadoch

Článek Terapeutické možnosti prevence cévní mozkové příhody u pacientů s karotickým stump syndromem – kazuistiky

Článek Oligosymptomatické formy myotonické dystrofie typu 2

Článek Odeznění traumatické pentaplegie u pacienta po kombinované zlomenině C1–C2

Článek Klinický standard pro diagnostiku a léčbu myasthenia gravis

Článek Webové okénko

Článek Prof. MUDr. Zdeněk Kadaňka, CSc., sedmdesátiletý

Článek Novinky v diagnostice a léčbě primárních nádorů mozku – závěry mezioborového setkání „Winter GLIO TRACK Meeting“ 2012

Článok vyšiel v časopise

Česká a slovenská neurologie a neurochirurgie

Číslo 2

2012 Číslo 2

Najčítanejšie tento týždeň

Najčítanejšie v tomto čísle

Kurzy

Zvýšte si kvalifikáciu online z pohodlia domova

nový kurz

Autori: doc. MUDr. David Zemánek, Ph.D., MUDr. Anna Chaloupka, Ph.D.

#ADS_BOTTOM_SCRIPTS#