Analýza dat: výzvy a specifika v neurovědách a psychiatrii
Data analysis: challenges and specifics in neuroscience and psychiatry
The amount of available data relevant for clinical decision support is rising not only rapidly but at the same time much faster than our ability to analyze and interpret them. Thus, the potential of the data to contribute to determining the diagnosis, therapy and prognosis of an individual patient is not appropriately exploited. The hopes to obtain benefit from the data for an individual patient must be accompanied by a reliable and diligent biostatistical analysis which faces serious challenges not always clear to non-statisticians. The aim of this paper is to discuss principles of statistical analysis of big data in research and routine applications in clinical medicine, focusing on particular aspects of psychiatry.
The paper brings arguments in favor of the idea that the biostatistical analysis of data in a specialty field requires different approaches and different experience compared to other clinical fields. This is illustrated by a description of common complications of the analysis of psychiatric data. Challenges of the analysis of big data in both psychiatric research and routine practice are explained, which are far from a routine service activity exploiting standard methods of multivariate statistics and/or machine learning. Important research questions, which are important in the current psychiatric research, are presented and discussed from the biostatistical point of view.
Keywords:
biostatistics, big data, psychiatry, decision support
Autori:
Jan Kalina 1; Jana Zvárovᆠ1,2
Pôsobisko autorov:
Ústav informatiky AV ČR, Praha
1; Ústav hygieny a epidemiologie 1. LF UK v Praze
2
Vyšlo v časopise:
Čas. Lék. čes. 2017; 156: 430-436
Kategória:
Review Articles
Súhrn
Množství dostupných dat, která jsou relevantní pro podporu klinického rozhodování, roste mnohem rychleji, než naše schopnost je analyzovat a interpretovat. Proto dosud není plně využit potenciál dat přispět ke stanovení správné diagnózy, terapie a prognózy jednotlivého pacienta. Měřená data mohou zajistit konkrétní přínos pro konkrétního pacienta, což však platí jen v případě, že jejich biostatistická analýza je provedena spolehlivě a pečlivě. To vyžaduje řešit výzvy, které se mohou jevit nesrozumitelnými pro nestatistiky. Cílem tohoto článku je diskutovat principy statistické analýzy velkých dat ve výzkumu i rutinních aplikacích v klinické medicíně, se zvláštním zřetelem na specifické aspekty psychiatrie.
Biostatistická analýza dat ve speciálním oboru vyžaduje své specifické přístupy a odlišné zkušenosti oproti jiným klinickým oblastem, jak dokládají komplikace při analýze psychiatrických dat. Analýza velkých dat v psychiatrickém výzkumu i rutinních aplikacích je velmi vzdálena pouhé servisní činnosti využívající standardní metody mnohorozměrné statistiky a/nebo strojového učení.
Klíčová slova:
biostatistika, velká data, psychiatrie, podpora rozhodování
ÚVOD
Množství dostupných dat, která jsou relevantní pro podporu klinického rozhodování, roste nejen rapidně, ale dokonce ještě mnohem rychleji, než naše schopnost je analyzovat a interpretovat (1). Taková data zahrnují výsledky základního výzkumu nebo klinických studií, ale i měření prováděná v nemocnicích či jednotlivými lékaři v rámci rutinní lékařské péče. Velká biomedicínská data mají obrovský potenciál pro dramatické změny v současné praxi zdravotní péče a mohou přinést proces rozhodování blíž k jednotlivému pacientovi. Současně mohou zlepšit efektivitu klinického rozhodování a zároveň i bezpečnost pacientů. Tyto myšlenky jsou zahrnuty do konceptu medicíny založené na informacích (2).
Fundamentální monografie věnované medicínské informatice pro oblast duševního zdraví (3, 4) se soustředí primárně na počítačové úlohy nízké úrovně a jejich řešení pro různé typy dat (včetně velkých dat). Vskutku se dosud věnovala intenzivní pozornost jen technologickým aspektům jako ukládání velkých medicínských dat ve velkých databázích, jejich transferu, ochraně (otázkám počítačové bezpečnosti), sdílení, bezztrátové kompresi, získávání z těchto databází a vhodné vizualizaci (5). Důležitou otázkou je také integrace různých systémů elektronického zdravotnictví, která by umožnila propojit aktuální data s dalšími daty o zdravotní péči, výsledky zobrazování mozku, přítomnosti rizikových genetických variant aj. Autoři současných článků však nevěnují pozornost specifickým rysům psychiatrie, v níž se vyskytují odlišné situace od obvyklých úloh při analýze velkých dat.
Statistická analýza nikdy nedokáže získat spolehlivé závěry, pokud surová data neobsahují relevantní informace kvůli chybnému sběru dat. Ten může být způsoben nevhodným designem dané studie, příliš velkými chybami měření nebo nehomogenní kontaminací dat výrazným šumem. Proto je otázka kvality velkých dat klíčová nezávisle na velikosti datového souboru. Tento jev, kdy nelze čekat dobrý výstup z nevhodného vstupu, bývá označován zkratkou GIGO (garbage in – garbage out). Jiným problémem může být, pokud schází některá důležitá měření, k čemuž dochází např. u longitudinálních dat, jež musejí být po určité době z legislativních důvodů skartována.
Tento text vychází z postulátu, že analýza biomedicínských dat je vždy závislá na konkrétním oboru. Je věnován specifikám psychiatrie a tématu biostatistické analýzy dat v psychiatrickém výzkumu a zdravotní péči. Přitom oblast spolehlivé analýzy velkých medicínských dat různých typů a formátů, která může být využita v praktických nástrojích elektronického zdravotnictví včetně systémů pro podporu rozhodování či dalších telemedicínských aplikací, dosud obsahuje řadu nevyřešených problémů.
Cílem článku je představit perspektivy, výzvy i omezení analýzy velkých dat v medicíně a pokusit se rozlišit mezi obecnými aspekty společnými pro různé obory klinické medicíny a specifickými aspekty charakteristickými pro psychiatrii. Rozvoj psychiatrie směrem k praxi založené na informacích, které jsou diskutovány níže, ovlivňuje i biostatistickou analýzu psychiatrických dat. Další část se věnuje obecným statistickým aspektům analýzy velkých dat a pokouší se zformulovat specifické výzvy pro psychiatrii. Nicméně jejich analýzu nekomplikuje jen neustále rostoucí množství dostupných měření a velikost získaných dat. A konečně pak uvádíme příklady měření velkých dat v psychiatrii a ilustrujeme důležitost statistiky a medicínské informatiky pro získávání informací v oblastech kognitivních neurověd, molekulární genetiky nebo podpory klinického rozhodování.
POKROK SMĚREM K PSYCHIATRII ZALOŽENÉ NA INFORMACÍCH
Výzkumná a klinická data v psychiatrii představují hodnotný kapitál s dosud nevyužitou příležitostí zrychlit rozvoj medicíny založené na informacích. Takový koncept popisuje snahu transformovat evidenci pro (myšleného) průměrného pacienta směrem k reálnému jednotlivému participativnímu pacientovi s využitím jeho individuálních dat včetně klinických, genetických či metabolických parametrů.
Principy medicíny založené na informacích v oblasti psychiatrie vedly k formulaci nového konceptu psychiatrie založené na informacích (information-based psychiatry) (6). Pokusy přiblížit psychiatrickou péči víc k pacientovi a destigmatizovat celou péči mohou být vysledovány už v 19. století u zakladatele české psychiatrické školy Jana Theobalda Helda (1770–1851), který byl prorokem cílené psychiatrické péče. Z širšího pohledu dějin psychiatrie můžeme říci, že psychiatrie pokročila výrazně vpřed od doby vzniku biologické psychiatrie, která propagovala jednoduché a intuitivní principy uklidňování stavů psychotických atak, ergoterapii nebo zdravý životní styl (7). Zatímco psychiatrie 21. století bere určení správné diagnózy za pevnou základnu pro proces klinického rozhodování, stále přetrvávají některé pozůstatky minulosti a můžeme říci, že psychiatrie zaostává oproti jiným klinickým oborům na své cestě směrem k principům medicíny založené na informacích. Takové pozůstatky zahrnují mj. dosud neznámé příčiny některých psychiatrických nemocí, léčbu symptomů namísto přímé léčby nemoci samotné nebo konečně i použití neuroleptik a antidepresivních psychofarmak pro léčbu pacientů s komplikovanějšími psychiatrickými onemocněními.
Analýza velkých biomedicínských dat metodami statistiky a dolování dat, jíž se dosud věnovala jen malá pozornost v literatuře o duševním zdraví i o medicínské informatice v dané oblasti, je nicméně velmi důležitá pro získávání nových medicínských znalostí. Může využívat rovněž nedávný překotný rozvoj neurověd a molekulární genetiky a hrát klíčovou roli při integrování znalostí z rozličných zdrojů, primárně ze základního výzkumu, epidemiologických studií a vyšetření jednotlivých pacientů. Nástroje medicínské informatiky spolu s analýzou dat tak přispívají k přeměně psychiatrie na soustavu psychiatrických věd, jež zahrnují široké spektrum oborů včetně neuropsychiatrie, sociální psychiatrie, psychiatrické epidemiologie nebo specifických oblastí pro jednotlivé věkové skupiny (dětská psychiatrie, geriatrická psychiatrie). Dostupná data z těchto rozvíjejících se oborů následně přispívají k procesu rozhodování soustředěného kolem pacienta a k zacílené péči o něj. Samotné principy biostatistické analýzy také vyžadují postupné vylepšování na cestě směrem k psychiatrii založené na informacích.
STATISTICKÉ ASPEKTY ANALÝZY VELKÝCH DAT, ZEJMÉNA V PSYCHIATRII
Analýza dat dostupných z psychiatrického výzkumu i z rutinní psychiatrické péče a jejich správná interpretace z klinického hlediska vyžadují specifické přístupy a specifickou zkušenost. Jde tedy o vážnou výzvu, která dosud nezískala dostatečnou pozornost expertů a jež bude v této části diskutována na základě osobních zkušeností autorů.
Výzvy při analýze psychiatrických dat
Jedním z klíčových požadavků na zlepšování psychiatrické péče o jednotlivého pacienta je dostupná analýza klinicky relevantních dat. Tato kapitola má za cíl shrnout závažné výzvy, kterým musí taková analýza čelit. Prezentujeme jednotlivé aspekty, přičemž rozlišujeme mezi obecnými výzvami a těmi, které jsou specifické pro obor psychiatrie. Přitom již samotné obrovské množství dat relevantních pro psychiatrickou péči je bezesporu důležitou výzvou, kterou budeme diskutovat v samostatné kapitole.
Analýza klinických dat pomocí metod mnohorozměrné statistiky a dobývání dat je v porovnání s rutinními postupy předzpracování takových dat mnohem pestřejší. Potíže spojené s analýzou dat naměřených z různých zdrojů shrnuje následující přehled.
Obvyklé potíže
- Velké množství dat.
- Různé typy dat, včetně kvalitativních (nominálních či ordinálních) a kvantitativních (diskrétních nebo spojitých) numerických dat, často s velkým počtem proměnných (znaků, příznaků), v kombinaci s dalšími typy (obrázky, texty, videa, grafy).
- Nejednotné formáty výstupů jako důsledek používání komerčních softwarů od různých dodavatelů.
- Různé jednotky nebo různá měřítka u různých proměnných.
- Velká dimenzionalita dat (prokletí dimenzionality je způsobeno velkým počtem proměnných).
- Malý počet vzorků (pacientů).
- Dostupný komerční statistický software může být kritizován za svou nespolehlivost nebo zpoždění z hlediska implementace nově navržených metod.
Specifické potíže charakteristické pro psychiatrická data
- Složitá kombinace měřených dat s tacitní znalostí, která může být popsaná jako praktická expertní znalost závislá na kontextu, založená na komplexním zhodnocení pacienta a jeho psychologického celku (8) v kombinaci se vzděláním, zkušeností, intuicí či subjektivním pohledem.
- Nejednoznačná interpretace statistických metod, která znemožňuje klinickou interpretaci, právě v psychiatrii tolik důležitou.
- Potřeba analýzy longitudinálních dat jako důsledek procesu vývoje psychiatrických onemocnění, který je dynamičtější a dlouhodobější než v jiných oborech.
- Specifické vlastnosti magnetické rezonance při zobrazování mozku (nehomogenní poměr signálu a šumu, malá efektivita, prostorová autokorelace) nebo jiných technologií.
- Chybějící jednoznačnosti při určování diagnózy schizofrenie.
Různé typy dat v psychiatrii
Statistická analýza psychiatrických dat vyžaduje uvážlivě kombinovat informace různého typu, včetně numerických dat (spojitých či kategoriálních), často s velkým počtem proměnných (znaků, příznaků), v kombinaci s dalšími typy (obrázky, texty, videa, grafy). Důležité příklady typů dat, jež jsou obvyklé v psychiatrii, jsou uvedeny níže spolu s konkrétními příklady vědeckých úloh.
- Data měřená nástroji elektronického zdravotnictví pro monitorování pacientů (např. přenosné senzory pro nepřetržité měření).
- Signály (např. analýza signálu elektroencefalogramu nebo detekce depresí na základě změny hlasu při hlasovém záznamu) (1).
- Funkční magnetická rezonance (fMRI) nebo další techniky pro zobrazování mozku (např. studie nevratných fyzických změn mozku v důsledku Alzheimerovy choroby nebo diagnostika schizofrenie na základě obrazu obličeje).
- Volný (narativní) text (např. automatická analýza klinických zpráv, které jsou často psány volným textem, dokonce i formou celoživotního příběhu psychiatrického pacienta).
- Molekulárně genetická data (např. genetická dispozice pro bipolární afektivní poruchu nebo poruchy nálady).
- Analýza hlasu (např. detekce relapsu schizofrenie v aplikacích na chytrých mobilních telefonech).
- Analýza sociálních sítí (např. detekce relapsu deprese nebo automatické určování nálady u uživatelů facebooku).
- Biochemické nebo biofyzikální modely mozku vycházející z diferenciálních rovnic.
- Časové řady (např. farmakokinetické modely pro etanol v mozku alkoholiků).
- Souvislost mezi geny a obrázkem mozku získaným pomocí fMRI (např. geny zodpovědné za genetickou dispozici pro vznik schizofrenie).
- Tacitní znalost.
Statistika versus strojové učení nebo dolování dat
Metodologie mnohorozměrné statistiky dokáže uchopit mnohorozměrnou strukturu dat, ovšem za cenu technických a často silných předpokladů. Nicméně v praxi se často analýza dat uchyluje k nástrojům strojového učení nebo přístupům heuristického dolování dat. V tomto ohledu jsou metody či heuristické nástroje často používány bez ověřování statistických předpokladů. Jsou-li však jejich předpoklady splněny, jsou statistické metody silnější oproti nástrojům strojového učení nebo dolování dat. Tato kapitola má za cíl vysvětlit jejich rozdíly i diskutovat výhody biostatistické metodologie.
Obvykle se tvrdí, že součástí strojového učení jsou univerzální (nebo univerzálně platné) metody bez statistických předpokladů. Nicméně také tyto metody většinou vyžadují určité (třeba i implicitní) statistické předpoklady, aby dokázaly řešit úlohy statistického charakteru. To platí rovněž pro význačné metody strojového učení včetně (umělých) neuronových sítí nebo metody podpůrných vektorů (SVM). Naproti tomu metody strojového učení obvykle nevyžadují konkrétní pravděpodobnostní rozdělení, což z nich činí flexibilnější nástroje oproti statistickým metodám.
Dolování dat může být charakterizováno jako heuristický proces získávání informací či znalostí z datového souboru, které umožňuje odhalit a vyšetřit systematické vztahy mezi jednotlivými proměnnými (9–11). Kombinuje zavedené metody pro explorační datovou analýzu, popisné modelování, klasifikaci a regresi s heuristickými principy, přičemž se obvykle klasifikace spolu s regresí označuje jako prediktivní dolování dat. Samotný koncept dolování dat může být popsán jako analytická část celkového procesu extrakce užitečných informací z dat, který se tradičně označuje jako dobývání znalostí (9).
Výhody statistických metod nyní shrneme v kontrastu s přístupy strojového učení. Některé vlastnosti jsou platné obecně, jiné jsou většinou pravdivé v regresní úloze. V takovém případě máme na mysli porovnání odhadu metodou nejmenších čtverců v lineární regresi s technikami neparametrické regrese, které umožňují najít (nelineární) regresní model.
- Srozumitelnost.
- Dostupné diagnostické nástroje a následná ošetření, pokud jsou porušeny předpoklady.
- Efektivní výpočet.
- Dostupné modifikace pro vysoce dimenzionální data (např. regresní odhady typu Lasso).
- Dostupné modifikace robustní vůči odlehlým hodnotám.
- Dostupné testy hypotéz.
- Žádná tendence k přeučení.
- Konfidenční interval pro odhady (např. regresních parametrů).
- Konfidenční pás (oblast, region) pro celou regresní přímku (nebo křivku).
Statistické metody mohou být poměrně snadno doplněny dodatečnými nástroji pro ověření předpokladů nebo modifikovány pro nestandardní situace. Nadto je třeba zmínit, že neuronové sítě či SVM nevedou na reálných datech k tak dobrým výsledkům jako na simulovaných datech, jak již bylo v psychiatrické komunitě pozorováno (12).
Principy analýzy velkých dat
Spolu s enormním nárůstem dat relevantních pro psychiatrické rozhodování se zatím nezdá, že by vědci v oborech psychiatrie či neurověd znali metody pro analýzu velkých dat. Arzenál těchto metod do těchto výzkumných oblastí teprve začíná pronikat (13). Kvalita standardní analýzy psychiatrických dat pomocí metod statistiky a dolování dat je také kritizována zkušenými biostatistiky (12). To platí obzvláště pro velká data diskutovaná v této kapitole a také pro vysoce dimenzionální data, která představují jejich speciální případ s počtem pozorování n přesahujícím (případně výrazně) počet proměnných p.
Prvním krokem při procesu analýzy reálných dat je potřeba provést předzpracování dat, tj. vyčistit data a připravit je pro následné analýzy. Ve skutečnosti je předzpracování označováno za časově nejnáročnější část analýzy velkých dat. Explorační analýza zahrnuje především vizualizační nástroje (histogramy, krabicové diagramy či kvantilové diagramy pro jednotlivé proměnné, bodové grafy pro páry proměnných). Jsou-li jednotlivé proměnné měřeny v různých skupinách, pak lze využít popisné statistiky (kvantily, průměry a rozptyly) nebo testové statistiky (F-test či chí-kvadrát test) jako užitečné nástroje pro vyhodnocení odlišnosti mezi skupinami.
Redukce komplexity (selekce proměnných nebo extrakce příznaků) je obecně doporučována jako následující krok analýzy dat. Může zlepšit výsledky následných analýz, jak bylo ostatně uznáno s neskrývaným překvapením např. u (13) navzdory ztrátě nějaké relevantní informace. Na druhou stranu je myšlenka parsimonie (tj. zredukování množiny proměnných na malou sadu těch nejvíce relevantních) škodlivá, pokud se zvolí příliš malý počet relevantních proměnných či komponent.
Nejdůležitější úlohou analýzy dat v psychiatrii se zdá být klasifikace nebo shlukování. Testování hypotéz je nevhodné pro analýzu velkých dat, protože mají příliš velkou sílu pro velké počty pozorování.
Specifické metody statistiky a strojového učení byly navrženy pro analýzu velkých dat teprve nedávno. To platí i pro data s počtem proměnných p převyšujícím počet pozorování n, která jsou obvykle označovaná jako vysoce dimenzionální. Zřejmě nejzajímavější klasifikační metody z hlediska možné interpretace jsou řídké metody, které nevyužívají informaci ze všech dostupných proměnných. Provádějí vnitřní (skrytou) redukci dimenzionality zajištěnou regularizací (10), která je přizpůsobena pro klasifikační úlohu, a nevyžadují tak její provádění ještě před klasifikací samou.
Zatím se nerýsuje shoda ohledně následujících aspektů analýzy velkých dat (s velkým p) a pokračující debaty o nich mohou být často označeny za chaotické či nekonstruktivní.
- Vhodnost konkrétních metod pro analýzu konkrétního klinického datového souboru. Zřejmě není žádná metoda analýza dat stejnoměrně nejlepší pro všechny existující datové soubory.
- Volba vhodné metody, což je důsledek předchozího bodu.
- Hledání modelu (tj. redukce modelu na podmodel).
- Vyhodnocení chování modelu. Standardní koncepty reliability či validity mají tendenci k falešnému optimismu pro velká data v důsledku přeučení, protože modely se mohou zdát prediktivními, i když jsou data zcela náhodná.
- Předpoklady jednotlivých metod.
- Doporučené rozsahy výběrů.
- Efektivní algoritmy pro výpočet. Některé z metod, přestože jsou teoreticky vhodné pro data s velkým n, jsou implementovány v komerčním softwaru způsobem, který je výpočetně nevýhodný nebo numericky nestabilní.
- Srozumitelnost výsledků pro uvažovaný medicínský problém. Jinými slovy – výsledky výpočtů musejí být jasně interpretovány z hlediska medicínského výzkumného tématu.
Nezávisle na tom zůstává potřeba nových efektivních a spolehlivých statistických metod pro sofistikovanou analýzu velkých nebo vysoce dimenzionálních dat (11, 14).
Robustnost vůči odlehlým hodnotám
Standardní metody mnohorozměrné statistiky i strojového učení jsou příliš citlivé vůči přítomnosti odlehlých pozorování v datech. Odlehlými hodnotami rozumíme takové, které jsou hodně vzdálené od masy ostatních pozorování. Přestože se obvykle nedefinují zcela rigorózně, vzdálenost odlehlého pozorování od většiny dobrých dat by měla převyšovat určitou mez. Taková atypická nebo anomální pozorování mohou být způsobena chybným designem studie, odlišnými podmínkami měření, pouhou náhodou nebo chybným měřením. Regularizace (tak jako i řídkost) přitom mohou zajistit jen lokální robustnost vůči (nevýrazným) chybám měření, ale ne vůči výrazně odlehlým hodnotám.
Proto byly navrženy robustní statistické procedury jako alternativy různým standardním postupům (15). Ty našly své místo i v analýze biomedicínských dat. Přitom vysoce robustními metodami rozumíme ty, jež jsou rezistentní vůči většímu podílu výrazně odlehlých hodnot. Jen některé z nich zcela ignorují odlehlé hodnoty. V každém případě lze doporučit, aby ignorování odlehlých hodnot bylo doprovázeno pečlivou analýzou, proč jsou odlehlé. Při analýze biomedicínských dat je obzvláště důležité zacházet s daty o atypických pacientech s velkou pečlivostí (16).
Ve statistické metodologii schází klasifikační postupy pro vysoce dimenzionální data, které by byly robustní k přítomnosti odlehlých nebo nesprávně naměřených hodnot, přestože některé takové metody byly v posledních letech navrženy. Mezi ně patří metody redukce dimenzionality, lineární regrese nebo klasifikační analýzy (17). Robustní metody jsou výpočetně náročné, často i kvůli požadavku optimalizovat různé vyhlazovací parametry. Důležitou otevřenou otázkou je návrh a analýza nových klasifikačních metod, přičemž první pokusy o vysoce robustní (ve smyslu bodu selhání) klasifikátory vhodné pro vysoce dimenzionální data dávají slibné výsledky např. v oblasti výzkumu mozku (18).
PŘÍKLADY ÚLOH S ANALÝZOU VELKÝCH DAT V PSYCHIATRICKÉM VÝZKUMU A PRAXI
V této kapitole jsou diskutovány konkrétní oblasti a úlohy psychiatrického výzkumu a praxe, a to z úhlu pohledu analýzy velkých dat. Tyto aplikace jsou založeny na naší zkušenosti s klinickým výzkumem i na rešerši v literatuře. Věříme, že následující přehled přispěje i k našemu budoucímu výzkumu zaměřenému na případové studie se skutečnými psychiatrickými pacienty. Jiným cílem budoucího výzkumu je pak metaučení porovnávající různé metody dolování dat na datových souborech z výzkumu v oblasti neurověd.
Kognitivní neurovědy
Porozumění propojení neuronů v mozku je klíčovým předpokladem pro nalezení efektivní terapie různých psychiatrických onemocnění. Věří se, že mnoho výzkumných úloh lze vyřešit pomocí fMRI. Tato zobrazovací metoda již nyní nabízí četné dostupné nástroje, které pomáhají lékaři při hledání diagnózy a léčbě mozku.
Je třeba upozornit, že medicínská informatika (včetně statistické analýzy dat) byla označena i jako jedna ze 6 hlavních platforem celoevropského projektu výzkumu lidského mozku. Zatímco někteří experti jsou kritičtí k možnosti pochopit mozek na čistě biologické bázi, dostupné holistické postupy mohou být z hlediska současné kognitivní neurovědy vnímány spíš jen jako alternativní než jako oficiálně uznávané. Příklady výzkumných úkolů založené na analýze velkých dat obsahují:
- Hledání vhodného komplexního (interdisciplinárního) modelu pro lidský mozek. Zatímco dřívější modely využívaly znalosti specifických funkcí jednotlivých částí mozku s jasným zřetelem na organizaci centrální nervové soustavy, dnes jsou považovány za vhodnější dynamické modely, zejména pokud jsou založené na rozsáhlých distribuovaných a interaktivních sítích.
- Využití fMRI pro predikci, zda pacient s depresemi bude reagovat na léčbu.
- Využití fMRI obrazů jako prediktoru konverze do demence (12).
- Využití fMRI mozku pro časnou diagnózu schizofrenie, jejíž příčina zůstává neznámá (19), i když je výrazně geneticky ovlivněna.
- Hledání příčin biochemických selhání mozku, pravděpodobně skrze dosti velký počet prekurzorů (20).
- Metody robustní analýzy obrazu (21) pro analýzu fMRI obrazů jakožto alternativa běžných metod. Neurozobrazování je vysoce citlivé vůči odlehlým hodnotám způsobeným chybou měření či komplikovaným postupem při získávání obrazů. Robustní postupy rezistentní vůči přítomnosti šumu v obrazech již byly navrženy ve formě M-odhadů (22), zatímco by byly užitečné alternativy ještě robustnější vůči výrazně odlehlým hodnotám.
Studie mozkové aktivity
Výzkum principů spontánní mozkové aktivity a zejména propojení mezi částmi mozku v klidovém stavu představuje žhavé téma v současných neurovědách, které je i součástí předcházejícího seznamu. Zahrnuje otevřené problémy pochopení mozkových procesů při různých aktivitách nebo hledání metody pro efektivní monitorování mozku. Jdou tak mnohem dále za pouhou znalost specifických funkcí různých částí mozku. Věří se, že změny v propojení mezi částmi mozku v klidovém stavu jsou charakteristické pro pacienty se schizofrenií. Tato kapitola přináší stručný popis výzkumné studie (18), která se věnovala spontánní mozkové aktivitě v různých částech mozku měřené pomocí funkčních zobrazovacích metod.
V této studii se měřila mozková aktivita u pacientů (n = 24) pomocí fMRI za 7 různých situací. Jednu z nich lze popsat jako klidový stav, tj. bez jakéhokoli stimulu. Kromě toho probandi postupně sledovali i 6 různých filmů a mozková aktivita jim při tom byla měřena obdobně. Měří se hodnoty (celkem p = 4005) korelačního koeficientu mezi fMRI měřeními v trojrozměrných částech mozku a jako míra podobnosti byl použit Pearsonův korelační koeficient, který je i nejvhodnější takovou mírou konektivity (23).
Základním úkolem analýzy je klasifikovat klidový stav oproti filmu na základě vysoce dimenzionálních dat splňujících n < p. Použili jsme různé klasifikační metody včetně metody podpůrných vektorů a regularizované lineární diskriminační analýzy (LDA) (14).
Obě tyto metody vedly ke 100% klasifikační správnosti. To by nemělo být překvapením, když data s n < p mohou být vždy oddělena lineárním klasifikátorem (18). Rovněž křížová validace založená na vynechávání jednoho pozorování potvrzuje 100% klasifikační správnost. Důležité také je, že model založený na regularizované LDA umožňuje dobrou srozumitelnost výsledků díky řídkosti. Její klasifikační pravidlo je konkrétně založeno jen na 81 nejvíce relevantních proměnných a ignoruje všechny ostatní.
Molekulární genetika
Četné psychiatrické poruchy včetně bipolární poruchy nebo schizofrenie jsou do značné míry ovlivněny dědičností. Genetický výzkum je přitom dosud jen na samotném začátku výzkumu genetických příčin psychiatrických onemocnění a čeká jej ještě dlouhá cesta k objasnění vlivu dědičnosti na onemocnění a využití skrytého potenciálu, který je obsažen v genetické informaci. Výzkum, který by umožnil rozvoj personalizované léčby, nebude možný bez specializovaných nástrojů statistiky a bioinformatiky. Cílem této sekce je diskutovat omezení stávajících molekulárně genetických studií v oblasti psychiatrie. Tak jako výše rozdělíme tato omezení na obecná a specifická (charakteristická) pro obor psychiatrie.
Dosud bylo provedeno již mnoho molekulárně genetických výzkumných studií zaměřených na genetickou dispozici psychiatrických onemocnění. Jejich celkový přínos současné psychiatrické péči je nicméně velmi malý, což bylo opakovaně označeno za frustrující a neuspokojivé (19), zdaleka nenaplňující očekávání psychiatrů. Psychiatrická genetika, která má za cíl využití molekulárně genetických poznatků v psychiatrické péči, dokázala identifikovat jen málo genů podezřelých ze souvislosti s psychiatrickými poruchami. I tak zřejmě nebude diskriminativní schopnost těchto genů umožňovat využití pro klinické účely, přestože geny mohou formálně vést ke statisticky signifikantním výsledkům (13). Jinak psychiatrická genetika nepokročila nijak výrazně, a dědičnost tak zůstává do velké míry nevysvětlená. To může být vysvětleno následujícími argumenty.
Obecná omezení molekulárně genetických studií
- Obecná omezení daná technologiemi, ať již v celogenomových asociačních studiích (sekvenování DNA) nebo ve studiích genových expresí či obohacení DNA, které hledají vysvětlení biologického významu skupiny genů (20).
- Nedostatečná validace výsledků; jde patrně o hlavní problém a jádro tzv. krize genomické medicíny (24).
- Příliš drahá měření (i v dnešní době).
- Příliš velká data na spolehlivou analýzu za pomoci aktuálně dostupných metod dolování dat či bioinformatiky (13).
- Slabá kvalita veřejně dostupných databází molekulárně genetických dat (např. RefSeq), které jsou otevřené pro prakticky nekontrolovatelný přísun nových dat.
Kritika současných molekulárně genetických studií v psychiatrii
- Většina současných studií dispozic pro psychiatrická onemocnění je přehnaně zjednodušená (13).
- Současné studie neberou v úvahu komplexní biologické procesy jako metabolické dráhy. Takové procesy vedoucí k psychiatrickým onemocněním totiž obvykle zahrnují celé soustavy genů, zatímco se projevují sotva patrně na úrovni jednotlivých genů.
- Dokonce i když se nakumulují efekty několika genových lokusů, vztahy mezi geny mohou být komplexnější než jednoduchý model pro jejich kumulaci.
- Kontroverze aktuálně dostupné prediktivní genetiky v psychiatrii. Příkladem je genetický test bipolární poruchy nabízený komerčními firmami, který je kritizován četnými experty za svou nedostatečnou validaci (25).
Specifická omezení molekulárně genetických studií v psychiatrii
- U některých psychiatrických onemocnění neexistuje jednoduchá genetická varianta zodpovědná za jeho vznik a genetická dispozice je obvykle vysoce polygenní, tj. způsobená velkým počtem genů s malým přínosem k celkovému genetickému riziku.
- Některé varianty DNA zvyšující riziko psychiatrických onemocnění jsou řídké (20), takže vyžadují velmi rozsáhlé genetické studie.
- Dispozice nemusí nutně vést ke vzniku psychiatrického onemocnění, ale při jeho vzniku hraje svou roli životní styl a environmentální faktory.
- Psychiatrické onemocnění může vzniknout i jako pouhý důsledek toho, že je diagnostikováno.
Podpora klinického rozhodování
Systémy pro podporu rozhodování lze popsat jako telemedicínské nástroje, jejichž cílem je nabídnout pomoc s procesem klinického rozhodování. Obecně se uznává jejich silný potenciál zlepšit zdravotní péči napříč všemi klinickými obory (6). Protože je správné a efektivní využití informace základem klinického rozhodování, obsahují i statistickou komponentu kombinující informaci z různých informačních zdrojů (26) a srovnávající riziko příslušné různým alternativám. Tak ilustrují význam analýzy velkých (či vysoce dimenzionálních) dat v klinické medicíně.
Zatímco základní výzkum z předchozích kapitol má deskriptivní povahu, tj. uvažuje zprůměrované výsledky přes správně zvolenou sadu pacientů, cíl podpory rozhodování lze popsat jako induktivní, a to naučit se klasifikační pravidlo umožňující přiřadit nového pacienta do jedné z daných skupin a zejména přenést obecné výsledky do konkrétní situace daného pacienta. Cílem této kapitoly je popsat prospěšný vliv i nevýhody systémů pro podporu rozhodování v psychiatrii, přičemž rozlišujeme mezi aspekty obecnými a specifickými pro oblast psychiatrie.
Rozšíření systémů pro podporu rozhodování umožní hluboké změny v každodenní psychiatrické péči směrem k psychiatrii založené na informacích. Obecné výhody systémů pro podporu klinického rozhodování v různých oborech mohou být shrnuty následovně:
- Potenciál pro zlepšení kvality poskytované péče a pro vytvoření ekonomického přínosu redukcí finančních nákladů a úsporou lidských zdrojů.
- Větší pohodlí pro lékaře, redukce stresu a více času na pacienta.
- Možnost využít úroveň znalostí, která odpovídá nejnovějším vědeckým výsledkům v medicíně.
- Užitečná pomoc méně zkušenému lékaři v komplikovaném medicínském případu.
- Redukce pacientova rizika skrze redukci chyb souvisejících se zdravotní péčí, připomínání důležitých diagnostických vyšetření lékaři, varování z hlediska možných vedlejších účinků nebo informování o nejnovějších klinických znalostech.
- Systém pro podporu rozhodování může přímo analyzovat vysoce dimenzionální data. Pro lékaře tak bude nejsnazší možností analyzovat data přímo v rámci systému. Lékař jako uživatel služby podpory rozhodování nemusí rozumět použitým metodám.
Další přínos systémů pro podporu rozhodování, který je specifický v psychiatrii, spočívá v diagnostickém procesu u pacientů s komplikacemi. Vážné psychiatrické onemocnění v kombinaci s jiným (nepsychiatrickým) se totiž projevuje neobvyklými příznaky a nestandardním vývojem a komplikuje rozhodování nezkušenému lékaři.
V současnosti se rozvíjí řada telemedicínských nástrojů pro diagnostiku psychiatrických onemocnění, včetně moderních technologií elektronického zdravotnictví pro distanční diagnostiku, terapii a prognózu. V porovnání s jinými klinickými obory systémy pro podporu rozhodování dosud nenašly standardní využití v rutinní psychiatrické péči. Příčiny této situace jsou předmětem intenzivních debat. Různé pokusy se systémy pro podporu rozhodování při diagnostice (27) a zřídka i při terapii vskutku přinesly frustrace. To platí i pro ojedinělé pokusy se systémy pro podporu rozhodování, které byly navrženy pro nalezení vhodné prognózy.
Někdy se tvrdí, že hlavním omezením systémů pro podporu rozhodování je samotná technologie, aniž by se uznala dodatečná omezení v rámci klinické dimenze řešeného problému (28). Autoři tohoto článku jsou přesvědčeni, že samotná podstata psychiatrie obsahuje vnitřní omezení, která komplikují plný vývoj a úspěšnou aplikaci systémů pro podporu rozhodování.
Seznam zkratek
fMRI funkční magnetická rezonance
GIGO garbage in – garbage out
LDA lineární diskriminační analýza
SVM metoda podpůrných vektorů
Poděkování
Práci finančně podpořil projekt NV15-33250A Ministerstva zdravotnictví ČR. Data z kapitoly 3.2 pocházejí z grantu 13-23940S Grantové agentury České republiky. Předběžné výsledky byly prezentovány na konferenci HEALTHINF 2016 v Římě, v jejímž sborníku bylo zveřejněno krátké pojednání.
Adresa pro korespondenci:
RNDr. Jan Kalina, Ph.D.
Ústav informatiky AV ČR
Pod Vodárenskou věží 2
182 07 Praha 8
Tel.: 266 053 099
e-mail: kalina@cs.cas.cz
Zdroje
1. Chen H, Fuller SS, Friedman C, Hersh W. Medical Informatics: Knowledge Management and Data Mining in Biomedicine. Springer, New York, 2005.
2. Borangíu T, Purcarea V. The future of healthcare – information based medicine. J Med Life 2008; 1: 233−237.
3. Hanson A, Levin BL. Mental Health Informatics. Oxford University Press, Oxford, 2013.
4. Levin BL, Hennessy KD, Petrila J. Mental Health Services: A Public Health Perspective. Oxford University Press, Oxford, 2010.
5. Baesens B. Analytics in a Big Data World. Wiley, Hoboken, 2014.
6. Kalina J, Zvárová J. Decision support for mental health: towards the information-based psychiatry. Psychology and mental health: concepts, methodologies, tools, and applications. IGI Global, Hershey, 2016: 1−14.
7. Šedivec V. Přehled dějin psychiatrie. Psychiatrické centrum, Praha, 2009.
8. Thornton T. Clinical Judgment, Tacit Knowledge, and Recognition in Psychiatric Diagnosis. Oxford Handbooks Online, Oxford, 2013.
9. Berka P, Rauch J, Zighed DA. Data mining and medical knowledge management: cases and applications. IGI Global, Hershey, 2009.
10. Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd ed.). Springer, New York, 2009.
11. Dziuda DM. Data Mining for Genomics and Proteomics: Analysis of Gene and Protein Expression Data. Wiley, New York, 2010.
12. Whelan R, Garavan H. When optimism hurts: Inflated predictions in psychiatric neuroimaging. Biol Psychiatry 2015; 75: 746−748.
13. Pirooznia M, Seifuddin F, Judy J et al. Data mining approaches for genome-wide association of mood disorders. Psychiatr Genet 2012; 22: 55−61.
14. Kalina J. Classification methods for high-dimensional genetic data. Biocybern Biomed Eng 2014; 34: 10−18.
15. Jurečková J, Sen PK, Picek J. Methodology in Robust and Nonparametric Statistics. CRC Press, Boca Raton, 2012.
16. Heritier S, Cantoni E, Copt S, Feser MPV. Robust Methods in Biostatistics. Wiley, Chichester, 2009.
17. Gschwandtner M, Filzmoser P. Outlier detection in high dimension using regularization. Adv Intel Syst Comput 2013; 190: 237−244.
18. Kalina J, Hlinka J. Implicitly weighted robust classification applied to brain activity research. Commun Comp Inf Sci 2017; 690: 87−107.
19. Lohoff FW. Overview of the genetics of major depressive disorder. Curr Psychiatry Rep 2010; 12: 539−546.
20. Schizophrenia Working Group of the Psychiatric Genomics Consortium. Biological insights from 108 schizophrenia-associated genetic loci. Nature 2014; 511: 421−427.
21. Kalina J. Implicitly weighted methods in robust image analysis. J Math Imag Vis 2012; 44: 449−462.
22. Wager TD, Keller MC, Lacey SC, Jonides J. Increased sensitivity in neuroimaging analyses using robust regression. Neuroimage 2005; 26: 99−113.
23. Hlinka J, Paluš M, Vejmelka M et al. Functional connectivity in resting-state fMRI: Is linear correlation sufficient? Neuroimage 2011; 54: 2218−2225.
24. Marshall E. Human genome 10th anniversary: Waiting for the revolution. Science 2011; 331: 526−529.
25. Mitchell P, Meiser B, Wilde A et al. Predictive and diagnostic genetic testing in psychiatry. Psychiatr Clin North Am 2010; 33: 225−243.
26. Van Bemmel JH, Musen MA. Handbook of Medical Informatics. Bohn Stafleu van Loghum, Houten, 2000.
27. Suhasini A, Palanivel S, Ramalingam V. Multimodel decision support system for psychiatry problem. Expert Syst Appl 2011; 38: 4990−4997.
28. Deslich S, Stec B, Tomblin S, Coustasse A. Telepsychiatry in the 21st century: transforming healthcare with technology. Perspect Health Inf Manag 2013; 10: 1f.
Štítky
Addictology Allergology and clinical immunology Angiology Audiology Clinical biochemistry Dermatology & STDs Paediatric gastroenterology Paediatric surgery Paediatric cardiology Paediatric neurology Paediatric ENT Paediatric psychiatry Paediatric rheumatology Diabetology Pharmacy Vascular surgery Pain management Dental HygienistČlánok vyšiel v časopise
Journal of Czech Physicians
- Advances in the Treatment of Myasthenia Gravis on the Horizon
- What Effect Can Be Expected from Limosilactobacillus reuteri in Mucositis and Peri-Implantitis?
- Spasmolytic Effect of Metamizole
- Metamizole at a Glance and in Practice – Effective Non-Opioid Analgesic for All Ages
- Metamizole in perioperative treatment in children under 14 years – results of a questionnaire survey from practice
Najčítanejšie v tomto čísle
- Sekundární příznaky zdravotního postižení v mezinárodních studiích
- Moderní pohled na převodní systém srdeční
- Tradiční medicína a současnost: terapie dny
- Nové cesty pro zlepšení zdravotní gramotnosti seniorů