#PAGE_PARAMS# #ADS_HEAD_SCRIPTS# #MICRODATA#

Cesta k datům: Stanoviska a doporučení pro poskytování zdravotních dat pro sekundární využití


The way to data: opinions and recommendations for the provision of health data for secondary use

Healthcare data held by state-run organisations is a valuable intangible asset for society. Its use should be a priority for its administrators and the state. A completely paternalistic approach by administrators and the state is undesirable, however much it aims to protect the privacy rights of persons registered in databases. In line with European policies and the global trend, these measures should not outweigh the social benefit that arises from the analysis of these data if the technical possibilities exist to sufficiently protect the privacy rights of individuals. Czech society is having an intense discussion on the topic, but according to the authors, it is insufficiently based on facts and lacks clearly articulated opinions of the expert public. The aim of this article is to fill these gaps.

Data anonymization techniques provide a solution to protect individuals' privacy rights while preserving the scientific value of the data. The risk of identifying individuals in anonymised data sets is scalable and can be minimised depending on the type and content of the data and its use by the specific applicant. Finding the optimal form and scope of deidentified data requires competence and knowledge on the part of both the applicant and the administrator. It is in the interest of the applicant, the administrator, as well as the protected persons in the databases that both parties show willingness and have the ability and expertise to communicate during the application and its processing.

Keywords:

health data – anonymization – de-identification – EHDS – GDPR


Autori: Aleš Tichopád 1;  Martin Augustynek 2;  Jiří Beneš 3;  Martin Dlouhý 4;  Tomáš Doležal 5,6;  Dana Horáková 7;  Michal Kršek 8;  Lenka Lhotská 9;  Petr Panzner 10;  Marek Penhaker 2;  Miroslav Petr 11;  Jan Piťha 12;  Boris Popesko 13;  Martin Rožánek 1;  Miloš Táborský 14;  Michal Vrablík 8
Pôsobisko autorov: Katedra biomedicínské techniky FBMI ČVUT v Praze 1;  Katedra kybernetiky a biomedicínského inženýrství FEI VŠB – TU, Ostrava 2;  Ústav biofyziky a informatiky 1. LF UK v Praze 3;  Katedra ekonometrie FIS VŠE v Praze 4;  Institut pro zdravotní ekonomiku a technology assessment (iHETA), Praha 5;  Farmakologický ústav LF MU v Brně 6;  Neurologická klinika a Centrum klinických neurověd 1. LF UK a VFN v Praze 7;  3. interní klinika – klinika endokrinologie a metabolismu 1. LF UK a VFN v Praze 8;  Katedra přírodovědných oborů FBMI ČVUT v Praze 9;  Ústav imunologie a alergologie LF UK a FN Plzeň 10;  Katedra medicínského základu v kinantropologii FTVS UK v Praze 11;  Laboratoř pro výzkum aterosklerózy, IKEM, Praha 12;  Ústav podnikové ekonomiky FME UTB ve Zlíně 13;  I. interní klinika – kardiologická LF UP a FN Olomouc 14
Vyšlo v časopise: Čas. Lék. čes. 2023; 162: 61-66
Kategória:

Súhrn

Data o zdravotní péči ve správě státem řízených organizací jsou pro společnost cenným nehmotným aktivem. Jejich využití by mělo být pro jejich správce a stát prioritou. Zcela paternalistický přístup správců a státu je nežádoucí, jakkoliv má za cíl ochranu práva na soukromí osob registrovaných v databázích. V souladu s evropskou politikou a celosvětovým trendem by však tato opatření neměla převážit společenský benefit, který z analýzy těchto údajů vyplývá, existují-li technické možnosti práva osob na soukromí dostatečně chránit. Česká společnost vede k tématu intenzivní diskusi, která se však podle autorů jen nedostatečně opírá o fakta a postrádá jasně artikulovaná stanoviska odborné veřejnosti. Cílem tohoto článku je tyto mezery zacelit.

Techniky anonymizace údajů představují řešení, jak chránit práva jednotlivců na soukromí a zároveň zachovat vědeckou hodnotu údajů. Riziko ztotožnění jednotlivců v anonymizovaných souborech údajů je škálovatelné a lze ho minimalizovat v závislosti na typu a obsahu údajů a jejich použití konkrétním žadatelem. Nalezení optimální formy a rozsahu deidentifikovaných údajů vyžaduje kompetence a znalosti jak na straně žadatele, tak na straně správce. Je v zájmu žadatele, správce i chráněných osob v databázích, aby obě strany projevily ochotu a měly schopnost a odborné znalosti komunikovat v průběhu žádosti a jejího zpracování.

Klíčová slova:

zdravotnická data – anonymizace – deidentifikace – EHDS – GDPR

ÚVOD

Zdravotních dat neustále přibývá. Každý pacient ročně vygeneruje desítky až stovky megabajtů dat shromažďovaných v ambulantních a nemocničních informačních systémech, registrech nebo databázích zdravotních pojišťoven, ale i v osobních aplikacích a diagnostických přístrojích. Vedle největšího zdroje těchto dat, kterým jsou poskytovatelé zdravotní péče, vznikají data na discích velkých technologických gigantů, jako jsou např. Apple, Microsoft nebo Google, jejichž zdravotní a lifestylové aplikace, jako například fitness trackery bedlivě schraňují a vyhodnocují toto cenné nehmotné aktivum na svých serverech. Data z reálné klinické praxe zachycují skutečné chování populace ve vztahu ke zdraví. Mají tedy ještě výrazně vyšší celospolečenskou i komerční hodnotu, než je tomu u dat z lifestylových a sportovních aplikací (1).

Pokud jsou záznamy na úrovni pacienta shromážděny nebo konsolidovány do jediného souboru longitudinálních dat, lze u něj sledovat kompletní historii demografických údajů, zdravotního stavu, diagnózy, léčby, lékařských postupů, čerpání péče a nákladech na ní a v neposlední řadě výsledků léčby. Poskytovatelé zdravotní péče a správci národních databází si dnes musí uvědomit, že údaje o pacientech jsou opravdu cenným nehmotným majetkem, pokladem informací, o který mají zájem víceré zúčastněné strany. Tyto údaje lze analyzovat za účelem získání vědeckých poznatků s hodnotou pro pacienty, poskytovatele, plátce, výzkum a farmaceutické společnosti a výrobce zdravotnických prostředků.

Soukromé společnosti ve zpracování zdravotních dat výrazně předběhly státní instituce, ale na konkrétních příkladech lze ukázat, že mnohé státy si hodnotu dat dobře uvědomují, například jejich zástupci z Dánska, Nizozemska nebo Finska vytvořili pravidla a systémové platformy pro práci s daty a jejich sdílení s žadateli z řad nejen akademických pracovišť, ale i průmyslu a širší veřejnosti. Tyto systémy funguji buď jako ryze státní, např. Sundhedsdatastyrelsen v Dánsku nebo Findata ve Finsku, nebo jako privátní neziskové organizace, jako je nizozemský Health-RI. Ve všech případech se jedná o organizace s adekvátní kapacitou personálu nejen pro zajištění technického chodu procesu, ale i pro komunikaci s žadateli a vyhodnocování žádostí.

Tyto organizace rovněž zodpovídají za informační kampaně a vzdělávací aktivity, a to i směrem do zahraničí. Dánsko tak kupříkladu svá zdravotnická data o mimořádně vysoké kvalitě komunikuje v rámci národních investičních pobídek.

Příkladem účelné legislativy zaměřené na poskytování sociálních a zdravotních dat je finský zákon č. 552/2019 o sekundárním využívání sociálních a zdravotních údajů (2). Ten nejenže stanovuje, za jakých podmínek lze s daty pracovat na základě individuálních žádostí a souhlasů pro jednotlivé typy dat, žadatelů a záměrů, ale pojmenovává i obecný celospolečenský zájem, mimo jiné na tvorbě inovací. Tím umožňuje využití dat i průmyslovým společnostem, a to i zahraničním.

Obdobně se proces poskytování zdravotních dat opírá o speciální zákony v Rakousku, Belgii, Německu, Francii, Velké Británii, ale třeba i v Maďarsku a dalších zemích. V USA jsou data poskytována na různých platformách a jejich poskytování je upraveno zákonem o přenositelnosti zdravotního pojištění a odpovědnosti z roku 1996 (HIPAA) (3, 4). V Česku a několika dalších, převážně nových členských zemích EU, jakákoliv legislativa k poskytování dat pro sekundární účely výzkumu dosud chybí.

Tento článek si klade za cíl reagovat na aktuální diskusi k tématu sekundárního využití zdravotních dat. Autoři zdůrazňují některá fakta, která jsou podle jejich názoru v dosavadní diskusi významně opomíjena. To se týká především doposud málo diskutované možnosti využívání anonymizovaných dat. Dále prezentují vlastní stanoviska a nastiňují konsenzus mezi riziky a přínosy v uvedené problematice. Cílem tohoto článku je také uvést na pravou míru terminologii často nesprávně užívanou v komunikaci a sděleních jak odborné, tak i laické veřejnosti. Aby byl článek praktickým přínosem pro žadatele i poskytovatele zdravotních dat, poskytují v něm autoři četná doporučení.

OBECNÁ STANOVISKA A DOPORUČENÍ

  1. Zdravotnická data představují cenné celospolečenské aktivum, současně jejich sekundární využití ve výzkumu může představovat riziko porušení práva na soukromí.
  2. Bezpečné využívání zdravotních dat k výzkumným účelům, plánování zdravotních politik, zvyšování zdravotní gramotnosti populace a investic do inovací by se mělo stát vysokou prioritou českého zdravotnictví.
  3. Riziko porušení práva na soukromí je škálovatelné v závislosti na typu dat, jejich obsahu, samotném žadateli a záměru sekundárního využití.
  4. Využití zdravotních dat ve výzkumu je možné mimo jiné při využití anonymizace pomocí deidentifikace osob. Tím dojde k minimalizaci nebo vyloučení rizika porušení práva na soukromí.
  5. Anonymizace je škálovatelný proces, který by měl být využit tak, aby byla dostatečně chráněna práva osob na soukromí a současně nedošlo k neadekvátní redukci vědecké hodnoty dat.
  6. Pomoci vhodné transformace dat lze vytvářet z tzv. longitudinálních tzv. průřezové datové soubory, které lze snadno anonymizovat pomoci deidentifikace osob. Tyto soubory často splňují náročné požadavky na vědecký výzkum bez rizika porušení práva na soukromí.
  7. Jak žadatelé, tak správci by měli v procesu žádosti o poskytnutí dat vážit rizika a vědecké potřeby a aktivně spolu komunikovat a hledat optimální formu a rozsah deidentifikovaných dat.
  8. Poskytování anonymizovaných zdravotních dat pro sekundární účely výzkumu by mělo být jedním z hlavních cílů správců těchto dat, obzvláště jedná-li se o státem řízené organizace. K úspěšnému plnění této agendy by tak měli disponovat dostatečnou výkonovou kapacitou, nebo touto roli pověřit vhodné třetí strany v roli zpracovatelů a poskytovatelů.

DETAILNÍ STANOVISKA A DOPORUČENÍ

  1. Preambule
1.1. Pro zdárné a efektivní fungování veřejného zdravotnictví podloženého vědeckým přístupem založeným na důkazech je nezbytné, aby tato činnost vycházela z analýzy dat z reálné klinické praxe.
1.2. Zdravotnická data jsou navíc aktivem katalyzujícím vývoj inovací v oblasti medicíny, farmacie, medicínsko-inženýrských a informačních oborů. Jsou-li mimo jiné využívána k optimalizaci procesů ve zdravotnictví, přinášejí prospěch pacientům i poskytovatelům zdravotní péče.
1.3. Vzhledem k velkému počtu společensky přínosných a vědecky cenných analýz na těchto datech by bylo žádoucí a efektivní, aby se této činnosti účastnilo co nejvíce pracovišť a osob s adekvátní expertízou, a došlo tak k její decentralizaci.
1.4. Autoři tohoto dokumentu jsou pracovníky akademických a vzdělávacích institucí, které se mimo jiné intenzivně věnují zpracování a analýze zdravotních dat a informací o veřejném zdraví a vnímají aktuálně probíhající společensko-odbornou diskusi o potřebě zdravotních informací a dat pro sekundární účely výzkumu.
1.5. Autoři shledávají společensky žádoucí, aby vedle informací byla taktéž zdravotnická data ve správě státem kontrolovaných organizací v rozumné míře a v poměru k rizikům přístupná odborné i širší veřejnosti pro sekundární účely výzkumu i obecné informovanosti veřejnosti. Tím se autoři připojují k dříve vyjádřenému názoru zainteresovanou veřejností (5, 6) i Ústavním soudem ČR ohledně dostupnosti zdravotních dat a informací (7).
1.6. Autoři současně shledávají a sdílejí nesporný společenský zájem na ochraně osobních údajů a vnímají možné riziko porušení práv na ochranu soukromí osob registrovaných ve zdravotních databázích státem kontrolovaných organizací. Toto riziko však lze přiměřeně regulovat, přičemž tzv. zákon o GDPR požaduje, aby bylo eliminováno v rozsahu nezbytném pro zamezení ztotožnění za pomoci prostředků, o nichž lze rozumně předpokládat, že by útočníkem mohly být použity pro ztotožnění dané fyzické osoby (8). Tím se otevírá prostor pro postupy zachovávající vědeckou hodnotu zdravotních dat při současné uspokojivé ochraně soukromí fyzických osob.
1.7. Autoři v tomto dokumentu vyjadřují svá stanoviska společně s doporučeními k poskytování zdravotních dat ve správě státem kontrolovaných organizací. Tato stanoviska se opírají o platnou legislativu (8, 9), jsou v souladu s doporučenými postupy, principy a návrhy Evropské komise (10, 11) a rovněž vycházejí ze zaběhlé vědecké teorie a praxe (4, 12–15).
1.8. Uvedenými skutečnostmi a vyjádřeními chtějí autoři přispět k pozitivní změně ve vnímání a samotné realizaci poskytování zdravotních informací a dat k sekundárnímu využití a tím i maximalizaci užitku z klíčového aktiva jednadvacátého století, jakým data jsou.
  1. Vymezení pojmů a skutečností
2.1. V současné diskusi o dostupnosti zdravotních dat a informací pro sekundární využití ve výzkumu dochází velmi často k nepřesnostem v používání pojmů, a tím i k zavádějícím konstatováním jak na straně žadatelů, tak i správců a poskytovatelů.
2.2. Zdravotnické informace (popř. analýzy) je vhodné chápat jako sdělení, které vzniklo vyhodnocením dat do podoby odhadů statistického ukazatele pro danou populaci pomocí metod popisné statistiky.
2.3. Zdravotnické informace v drtivé většině případů nepředstavují významné riziko pro ztotožnění konkrétní fyzické osoby, a jejich poskytování a použití se tak nemusí řídit zákonnými ustanoveními na ochranu osobních údajů. Zdravotnické informace by měly být bez dalšího poskytovány žadatelům. Neexistují relevantní důvody, aby veškeré zdravotnické informace, které vytvářejí orgány státní správy, nebyly volně přístupné veřejnosti.
2.4. Zdravotnická data je vhodné chápat jako údaje na úrovni jednotlivých osob, které mají více atributů a jsou získané, shromážděné a případně dále vykázané zdravotnickým pracovníkem. Zdravotnická data tak mohou představovat – a v drtivé většině případů i představují – citlivé osobní údaje.
2.5. Hlavní rizika spojená s využitím zdravotních dat jsou v pořadí podle významnosti především riziko ztotožnění dat s fyzickými osobami, riziko mylné nebo záměrně falešné interpretace dat a riziko zneužití pro účely neetického marketingu zaměřeného na poskytovatele zdravotní péče a pacienty.
2.6. Při poskytování zdravotních dat k analýze vždy nevyhnutelně vzniká riziko jejich ztotožnění s konkrétní osobou. Toto riziko představuje vzhledem k zájmu chráněnému zákonem největší riziko z výše uvedeného výčtu rizik mimo jiné také proto, že takto vzniklá újma je zpravidla nevratná. Toto riziko však lze přiměřeně regulovat, přičemž tzv. zákon o GDPR požaduje, aby bylo eliminováno v rozsahu nezbytném pro zamezení ztotožnění za pomoci prostředků, o nichž lze rozumně předpokládat, že by mohly být použity při ztotožnění dané fyzické osoby (8). Tím se otevírá prostor pro postupy zachovávající jejich vědeckou hodnotu při současné uspokojivé ochraně soukromí fyzických osob.
2.7. Otevřená data je vhodné chápat jako data na úrovni pacienta volně dostupná komukoliv, případně i bez identifikace nabyvatele (např. formou jejich vyskladnění na internetu). Je proto vhodné odlišovat otevřená data od poskytování anonymizovaných zdravotních dat identifikovanému žadateli.
2.8. Aktuální stav současného poznání a mezinárodní praxe v problematice poskytování a otevírání anonymizovaných zdravotních dat umožňuje správcům dat zaujmout pozitivní přístup k žádostem o jejich poskytnutí nebo otevření (4, 10, 12, 13, 16).
2.9. Riziko ztotožnění poskytovaných zdravotních dat s konkrétní osobou je škálovatelné v závislosti na obsahu těchto dat, účelu jejich využití a na povaze a motivacích samotného žadatele a na jeho technickém vybavení a smluvním vztahu s poskytovatelem.
2.10. Zdravotnická data mohou obsahovat strukturované údaje (např. pohlaví nebo diagnózu). Vedle toho mohou obsahovat i nestrukturované údaje (např. texty, obrázky, obrazové kopie strukturovaných údajů, audionahrávky atd.). V obou případech se jedná o atributy zdravotních dat konkrétní osoby.
2.11. Dle původu, způsobu sběru, zpracování a vykazování se zastoupení nestrukturovaných atributů může měnit. V některých typech zdravotních dat (např. administrativní data plátců zdravotní péče) nestrukturované atributy obsaženy nejsou.
2.12. Zdravotnická data mohou být průřezová (cross-sectional) bez časového (longitudinálního) rozlišení atributů buďto na základě samotné neopakovatelné charakteristiky studovaného jevu (např. data o porodech), na základě vypuštění nebo zobecnění časového údaje (např. z důvodu jeho nevýznamnosti), nebo sekundární agregací shodných nebo podobných atributů za definované období (např. součtem všech dní strávených v nemocnici za rok).
2.13. Zdravotnická data mohou obsahovat údaje získané ve vícero různých časových okamžicích. Tato data označovaná jako longitudinální zdravotnická data je vhodné vnímat jako zvláštní skupinu.
2.14. Zdravotnická data mohou být úplná zachycující zdravotnicky relevantní atributy o pacientovi bez ohledu na konkrétní kritérium (např. diagnózu, věkovou skupinu, vykazující lékařskou specializaci atd.), nebo tematická, tedy sekundárně zúžená pouze na vybrané atributy související s určitým tématem.
2.15. U longitudinálních dat, především pak těch úplných, je riziko ztotožnění osoby nejvyšší, neboť atributy s přesnými časovými údaji mohou nezaměnitelně identifikovat konkrétní osobu.
2.16. U tematických longitudinálních dat vytvořených sekundární úpravou je riziko ztotožnění menší, neboť počet atributů, které by útočníkovi umožnily osobu ztotožnit, je méně. Tato data však mají menší vědeckou hodnotu, neboť v nich mohou chybět atributy nezbytné pro správnou statistickou analýzu (tzv. adjustační nebo stratifikační faktory).
2.17. U průřezových dat je riziko ztotožnění relativně nejmenší, obzvláště pokud se jedná o data tematická. Současně však může být jejich vědecké využití limitováno. Existuje však velký počet smysluplných a hodnotných analýz, které je možno na průřezových datech úspěšně realizovat (např. analýza čerpání zdrojů, nákladů, prevalence, incidence, určité klinické výstupy). Toto lze především u průřezových agregovaných dat vzniklých úpravou („zploštěním“) longitudinálních dat agregací (např. sečtením hospitalizačních dní za rok) nebo definicí klinického endpointu (např. smrti, hospitalizace, progrese onemocnění) podle přesně dohodnutých pravidel v definovaném „zplošťovaném“ časovém období.
2.18. Nestrukturované údaje ve zdravotních datech, u nichž je možno předpokládat, že mohou sloužit jako identifikátory, vyžadují zvýšenou pozornost a technické prostředky k jejich anonymizaci. Neměly by tedy být bez dalšího poskytovány nebo otevřeny, nedojde-li správcem k jejich zpracování na strukturované údaje a začlenění do celkového posouzení rizika a koncepce anonymizace.
2.19. Všechny typy zdravotních dat lze úspěšně anonymizovat. Náročnost tohoto procesu by však měla – vedle zachování nezbytného rozsahu dat pro zdárné naplnění účelu analýzy – být směrodatná pro stanovení rozsahu dat jak na straně poskytovatele, tak i žadatele.
  1. Doporučení pro poskytovatele
3.1. Vhodným a ve stávajícím českém právním prostředí jediným nástrojem zajištění ochrany soukromí osob při současnem poskytování cenných zdravotních dat je anonymizace pomoci deidentifikace, tedy proces, při němž dojde zásahem do dat k nevratné deidentifikaci osob. Za tímto účelem se v datovém souboru buď zcela, nebo selektivně u vybraných osob potlačí nebo zobecní vybrané atributy, které by samostatně, tedy coby tzv. identifikátory, nebo v kombinaci, tedy coby tzv. kvaziidentifikátory, mohly vést k ztotožnění konkrétní osoby. V porovnání s agregací dat do indikátorů vyšší úrovně pomocí popisné statistiky je však při deidentifikaci významně zachována vědecká hodnota dat na úrovni jednotlivých osob. Jistá ztráta informace je však nevyhnutelná (4, 12, 15, 16).
3.2. Deidentifikovaná data nejsou osobními údaji. Je s nimi tedy možno pracovat bez ohledu na zákonná ustanovení k ochraně osobních údajů. Správná deidentifikace nezajistí absolutní ochranu před ztotožněním dat s konkrétní osobou, neboť to z podstaty věci nelze, ale v souladu se zákonem (8) zajistí dostatečnou ochranu před snahou o ztotožnění osoby pomocí prostředků, „o nichž lze rozumně předpokládat, že je správce nebo jiná osoba včetně útočníka mohou použít“.
3.3. Ke ztotožnění osoby může dojít záměrně či náhodou. Záměrné ztotožnění je vždy útokem proti zákonem chráněnému zájmu osob, jejichž údaje jsou obsažené v datovém souboru. Náhodné ztotožnění nicméně představuje z pohledu ochrany soukromí stejně závažný problém.
3.4. Za nejrizikovější lze považovat záměrné ztotožnění osoby vyčleněním cílící na nalezení málo pravděpodobné či zcela unikátní kombinace znaků (např. porod ve velmi vysokém věku), přičemž útočník je veden především snahou tuto svou schopnost ztotožnění nějaké osoby demonstrovat, a nehledá tedy konkrétní známou osobu či někoho ze svého okolí. Toto riziko lze nejspíše očekávat u tzv. otevřených dat, která by byla dostupná velkému počtu potenciálních útočníků (např. hackerům včetně tzv. etických). Otevřená data proto představují větší riziko útoku na konkrétní osobu nejen vzhledem k jejich snadné dostupnosti, ale i z důvodu výše uvedené odlišné motivace útoku, a tedy i způsobu jeho provedení.
3.5. Méně rizikové je náhodné či záměrné ztotožnění osoby známé pracovníkovi s daty nebo útočníkovi, neboť je nepravděpodobné, že právě tato osoba disponuje unikátní či málo pravděpodobnou, a tedy snadno vyčlenitelnou kombinací znaků.
3.6. Poskytovatel nebo přímo správce dat by měl s žadatelem otevřeně a trpělivě komunikovat o jeho potřebách, a tím i porozumět nezbytnému rozsahu poskytovaných dat, s nimi spojeným rizikům, a tedy i rozsahu jejich požadované anonymizace.
3.7. Je žádoucí a výhodné, aby měl žadatel vždy k dispozici maximum informací o struktuře podkladových databází, a mohl tak lépe a přesněji definovat svou žádost.
3.8. Anonymizace pomocí deidentifikace by měla proběhnout vždy jen v nezbytném rozsahu ztráty informace při současné eliminaci pravděpodobnosti ztotožnění osoby tak, aby odpovídala míře odhadnutého rizika, že k takovému ztotožnění dojde. Riziko ztotožnění je odhadnutelné a jeho eliminaci je možno provést za pomoci empirických údajů a statistických postupů (12–14, 16, 17).
3.9. Anonymizace pomocí deidentifikace by měla probíhat tak, že jsou vždy plně odstraněné všechny identifikátory a kvazi-identifikátory jsou potlačeny či generalizovány v rozsahu, který znemožní ztotožnění osoby vyčleněním na základě kombinace těchto kvaziidentifikátorů.
3.10. U jednoduše strukturovaných dat, jako jsou průřezová data s menším množstvím atributů, je možno stanovit fixní pravidlo deidentifikace spočívající v odstranění definovaných identifikátorů a kvaziidentifikátorů na principu bezpečného přístavu (safe harbor) (4).
3.11. U longitudinálních dat, především pak u úplných longitudinálních dat, je proces anonymizace výrazně složitější. Jejich anonymizace vyžaduje porozumění rizikům spojeným s žadatelem a záměrem analýzy.
3.12. Průřezová data mohou v mnoha případech dostatečně uspokojit žadatele o komplexní formu dat (např. pro analýzu čerpání zdrojů). Je však nezbytné tuto možnost společně s žadatelem prodiskutovat v procesu jeho žádosti. Cílem by mělo být nalezení vhodného „zploštění“ longitudinálních dat tak, aby došlo pouze ke ztrátě postradatelných atributů dat.
3.13. Při posuzování formy a rozsahu poskytnutí či zveřejnění dat anonymizovaných pomoci deidentifikace by měly být současně posouzeny následující aspekty:
riziko dle typu dat: tedy riziko s ohledem na to, zda se jedná o průřezová data, longitudinální data, tematická nebo úplná data;
riziko žadatele: tedy riziko záměrného i nezáměrného ztotožnění osoby žadatelem, popř. některým jeho pracovníkem; zde je vhodné posoudit počet osob s přístupem k datům na straně žadatele;
charakter a cíl záměru analyzovat data a s tím spojený potenciální společenský přínos.
3.14. Poskytovatel by měl při posuzování žadatele brát ohled na to, zda pracuje se zdravotními daty kvalifikovaně a dlouhodobě, nebo se jedná o jednorázový požadavek žadatele, u nějž lze předpokládat možnou snahu o ztotožnění osoby. Tomuto riziku by poskytovatel následně měl uzpůsobit stupeň anonymizace dat až do té míry, že by například longitudinální data byla poskytnuta agregovaně ve formě průřezových dat. Posouzení žadatele a jeho záměru data analyzovat je však vždy subjektivní a nemělo by tedy být důvodem pro zamítnutí poskytnutí dat.
3.15. Otevřená zdravotnická data v původní podobě představují vysoké riziko ztotožnění osoby. Proto by měla být poskytována anonymizovaná v míře, která přesahuje míru jinak dostačující při jejich poskytnutí do rukou konkrétního identifikovaného žadatele.
3.16. Zatímco průřezová data jsou relativně snadno anonymizovatelná i pro účely jejich otevření, u longitudinálních dat by otevření mělo být realizováno jen formou tematických souborů při současném snížení přesnosti datových údajů u jednotlivých atributů a pouze za krátké nebo střednědobé období (nižší jednotky let).
  1. Doporučení pro žadatele
4.1. Při předkládání žádosti o zdravotnická data nebo informace je žádoucí rozlišovat mezi informacemi a daty. V případě žádosti o data by žádost měla explicitně požadovat poskytnutí anonymizovaných dat.
4.2. Před podáním žádosti je vhodné si z dostupných zdrojů nebo dotazem u správce dat zjistit strukturu a obsah podkladové databáze, která je ve správě oslovené organizace. Je taktéž záhodno, aby se k logické správnosti žádosti vyjádřila osoba se znalostí databázových pravidel, případně i statistik. V tomto ohledu autoři upozorňují na riziko spojené s výběrem (výběrové zkreslení, tj. bias).
4.3. V procesu předkládání žádosti o zdravotnická data je výhodné předem komunikovat s poskytovatelem a společně definovat požadavek. Tato komunikace by měla cílit na nalezení optimálního kompromisu mezi úplností dat a riziky spojenými s jejich rozsahem a charakterem (především pak u longitudinálních dat).
4.4. Při žádosti o zdravotnická data nebo informace je žádoucí podrobně specifikovat požadavek především s jasným odkazem na definici cílové populace, sledovaného časového období a na stratifikaci podle sledovaných faktorů a dále při něm zohlednit strukturu a obsah podkladové databáze.
4.5. Žádost o zdravotnická data by měla být doprovázena co nejpodrobnějším popisem záměru a hlavních cílů analýzy (např. nákladů na léčbu neoperovatelného karcinomu plic).
4.6. Žádost o data by měla specifikovat data v rozsahu, který je nezbytný pro realizaci záměru analýzy, a měla by dostatečně definovat atributy, které mohou být pro analýzu relevantní. Autoři doporučují nejprve definovat kohortu osob (např. diagnózou nebo nepřímo pomocí charakteristických výkonů nebo léků), poté časový horizont pro sledování, jednotlivé atributy v co možná nejúplnějším, avšak pouze nezbytném výčtu, a nakonec upřesnit, zda má požadovaný soubor zahrnovat časové údaje k jednotlivým atributům (tzn. zda se bude jednat o longitudinální data, či nikoliv).
4.7. Pokud je možno cíle analýzy dosáhnout za pomoci průřezových dat (např. popis demografie pacientů), měl by žadatel žádat pouze tato data. Žadatel si případně může nechat upravit longitudinální data správcem tak, aby v nich byly pouze agregované atributy vytvořené sekundárně na úrovni každého pacienta (např. sumy stejných lékařských výkonů nebo balení stejného léku v daném čase).
4.8. Pokud žadatel již má v držení jiná předchozí data, u nichž by přicházelo v úvahu, že v kombinaci s žádanými daty může dojít ke ztotožnění osob, měl by učinit veškerá opatření, aby k tomu nedošlo. Tedy například předchozí data smazat, dodatečně anonymizovat, nebo interním předpisem a režimovým opatřením tato data zajistit a upravit jejich používáni. Současně by v žádosti měl na tuto skutečnost upozornit.

ZÁVĚR

Zde uvedená stanoviska a doporučení jsou i přes jejich relativně dlouhý výčet návodem správcům dat k tomu, jak nahlížet na zdravotnická data a poskytovat je žadatelům způsobem, který umožnuje jejich plnohodnotné vědecké zhodnocení.

Techniky deidentifikace dat a stanovováni rizik jsou dnes již samostatným vědním oborem a nelze očekávat, že je čeští správci dat obratem využijí na všechny typy zdravotních databází a ty následně dají k dispozici. Bylo by však žádoucí, aby u jednodušších průřezových datových sad došlo k jejich brzké anonymizaci a aby další podobné sady i nadále vznikaly společně s tím, jak se budou rozvíjet postupy pro anonymizaci složitějších longitudinálních dat.

Obecně by pak méně paternalistický přístup správců, laskavost a vůle komunikovat s žadateli nejen usnadnil žadatelům cestu k datům, ale v mnoha případech i umožnil jejich poskytnutí ve formě, která by vyvažovala riziko s dosažitelnými cíli analýzy. Ne vždy si totiž žadatelé uvědomují, že se nabízí vhodné a záchovné transformace dat, které silně redukují riziko ztotožnění osob. Každá individuální žádost o data s sebou nese specifická rizika a je na žadateli, aby posoudil, zda cíl a rozsah vědeckého záměru vyvažuje rizika spojená s poskytnutím dat.

Hlubší a hlavně technickou diskusi si zaslouží problematika smluvního vztahu mezi poskytovatelem a žadatelem o data, především pak s ohledem na mlčenlivost. Dále pak institucionální zajištění uskladnění dat a dohledové možnosti žádající organizace nad využitím dat a revizi výstupů před zveřejněním.

Tato doporučení jsou psána především z perspektivy akademických vědeckých pracovníků, kteří jsou jejich autory. Lze očekávat, že některé zde uvedené skutečnosti nebo doporučení mohou být vnímány jinak z pohledu výzkumných pracovníků v průmyslu. Bylo by proto žádoucí, aby časem vznikly komplementární poziční sdělení a doporučení pro specifické využití dat například pro vývoj léků a jejich sledování v reálné klinické praxi na straně průmyslu.

Autoři se rovněž do hloubky nezabývají problematikou ochrany dobrého jména a pověsti poskytovatelů zdravotních služeb, plátců či jiných právnických subjektů, která může být dotčena zveřejněním výsledků analýz zdravotních dat a informaci, obzvláště budou-li nesprávné, neúplné nebo záměrně zavádějící.

V neposlední řadě je nutno s obavami vnímat i rizika spojená s nesprávným použitím nebo záměrným zneužitím zdravotních dat a následným šířením nepravdivých a falešných informací. Tato rizika jsou však méně závažná a leckdy dodatečně zhojitelná. Navíc jsou předmětem samostatných právních předpisů, které (spíše než paternalistické jednání správců dat) společnost před těmito riziky do jisté míry chrání. Autoři se jim zde proto hlouběji nevěnují.

  

Čestné prohlášení

Aleš Tichopád je společníkem společnosti CEEOR, s. r. o., která opakovaně žádá o zdravotnická data.

Tomáš Doležal je společníkem ve společnostech Medivio, s. r. o., Cogvio, s. r. o., a Value Outcomes, s. r. o., jež opakovaně žádají o zdravotnická data.

Autoři práce prohlašují, že v souvislosti s tématem, vznikem a publikací tohoto článku nejsou v žádném dalším střetu zájmů a vznik ani publikace článku nebyly podpořeny žádnou farmaceutickou firmou.

  

Adresa pro korespondenci:

Dr. rer. nat. Aleš Tichopád, Ph.D.

Katedra biomedicínské techniky FBMI ČVUT

náměstí Sítná 3105, 272 01  Kladno

e-mail: ales.tichopad@fbmi.cvut.cz


Zdroje
  1. Henson P, David G, Albright K et al. Deriving a practical framework for the evaluation of health apps. Lancet Digit Health 2019; 1: 52–54.
  2. The Finnish act on the secondary use of social and health data. 2019. Dostupné na: https://stm.fi/en/secondary-use-of-health-and-social-data
  3. Safran C, Bloomrosen M, Hammond WE et al. Toward a national framework for the secondary use of health data: an American medical informatics association white paper. J Am Med Inform Assoc 2007; 14: 1–9.
  4. Guidance regarding methods for deidentification of protected health information in accordance with the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule. Health Information Privacy. The Office for Civil Rights (OCR), 2012. Dostupné na: www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html
  5. Assessment of the EU Member States’ rules on health data in the light of GDPR. Directorate-General Health and Food Safety of the European Commission, Luxembourg, 2021. Dostupné na: https://health.ec.europa.eu/system/files/2021-02/ms_rules_health-data_en_0.pdf  
  6. Skovgaard LL, Wadmann S, Hoeyer K. A review of attitudes towards the reuse of health data among people in the European Union: the primacy of purpose and the common good. Health Policy 2019; 123: 564–571.
  7. Nález ústavního soudu Pl. ÚS 25/21. Ústavní soud ČR, 17. ledna 2023. Dostupné na: www.usoud.cz/fileadmin/user_upload/Tiskova_mluvci/Publikovane_nalezy/2023/Pl._25-21_nalez.17-1-23_-_AN.pdf
  8. Nařízení evropského parlamentu a rady (EU) 2016/679, o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů a o zrušení směrnice 95/46/ES (obecné nařízení o ochraně osobních údajů). Dostupné na: www.uoou.cz/assets/File.ashx?id_org=200144&id_dokumenty=20112  
  9. Zákon č. 110/2019 Sb, o zpracování osobních údajů. Dostupné na: https://aplikace.mvcr.cz/sbirka-zakonu/ViewFile.aspx?type=c&id=38632
  10. Opinion 05/2014 on anonymisation techniques. Papers of the Article 29 Working Party. Article 29 Working Party (Art. 29 WP), 2014. Dostupné na: https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf
  11. A European Strategy for data. Evropská komise. Dostupné na: https://digital-strategy.ec.europa.eu/en/policies/strategy-data
  12. el Emam K. Guide to the de-identification of personal health information. Auerbach Publications, New York, 2013.
  13. Sweeney L. Replacing personally-identifying information in medical records, the Scrub system. Proc AMIA Annu Fall Symp 1996: 333–337.
  14. el Emam K, Jonker E, Arbuckle L et al. A systematic review of re-identification attacks on health data. PLoS One 2011; 6: e28071.
  15. el Emam K, Dankar FK, Issa R et al. A globally optimal k-anonymity method for the de-identification of health data. J Am Med Inform Ass 2009; 16: 670–682.
  16. Kayaalp M. Modes of de-identification. AMIA Annu Symp Proc 2018; 2017: 1044–1050.
  17. Kayaalp M. Patient privacy in the era of big data. Balkan Med J 2018; 35: 8–17.
Štítky
Adiktológia Alergológia a imunológia Angiológia Audiológia a foniatria Biochémia Dermatológia Detská gastroenterológia Detská chirurgia Detská kardiológia Detská neurológia Detská otorinolaryngológia Detská psychiatria Detská reumatológia Diabetológia Farmácia Chirurgia cievna Algeziológia Dentální hygienistka

Článok vyšiel v časopise

Časopis lékařů českých

Číslo 2-3

2023 Číslo 2-3
Najčítanejšie tento týždeň
Najčítanejšie v tomto čísle
Kurzy

Zvýšte si kvalifikáciu online z pohodlia domova

Aktuální možnosti diagnostiky a léčby litiáz
nový kurz
Autori: MUDr. Tomáš Ürge, PhD.

Všetky kurzy
Prihlásenie
Zabudnuté heslo

Zadajte e-mailovú adresu, s ktorou ste vytvárali účet. Budú Vám na ňu zasielané informácie k nastaveniu nového hesla.

Prihlásenie

Nemáte účet?  Registrujte sa

#ADS_BOTTOM_SCRIPTS#