< eelmine | 8. OSA sisukord | järgmine > |
8.2 Kuidas on terviseandmed arvutis talletatud
autorid: Raivo Kolde, Sulev Reisberg
Suuremahulise masinõppe ja tehisintellekti rakendamise seisukohalt võib kõige olulisemateks terviseandmete liikideks lugeda järgmisi andmeid:
- Patsiendi üldandmed - isikukood, sugu, vanus (sugu ja vanus kipuvad olema üldse parimad haiguste ennustajad)
- Patsiendi diagnoosid - tavaliselt struktureeritud (s.t klassifikaatori koodiga esitatud, nendest tuleb allpool juttu) ja kõige muuga võrreldes kõige parema kvaliteediga andmed. Diagnoose kasutatakse ilmselt peaaegu kõigis meditsiinilistes ja epidemioloogilistes uuringutes (nendest tuleb juttu järgmises osas).
- Patsiendi laborianalüüside tulemused - väga oluline info, kuid üldjuhul on andmed ebaühtlase kvaliteediga, sest nad on kirja pandud eri viisidel (erinev tähistus - nt “veresuhkur” vs. “glükoos”, erinevad ühikud, erinev kirjapilt) ja seetõttu on raske aru saada, kas eri tähistusega analüüsid on tegelikult üht ja sama liiki analüüsid või erinevad, samuti on keeruline ühikuid ühele ja samale kujule teisendada
- Milliseid ravimeid patsiendile on välja kirjutatud ja milliseid tarbib
- Patsiendile teostatud protseduurid, operatsioonid
- Vabatekstilised märkmed
- Pildid (röntgen, kompuutertomograafia, südame elektrokardiogramm jne) - nende suuremahuliseks analüüsimiseks on masinõppelahendused hädavajalikud.
Järgnevalt tutvustame neid andmeliike ning esitamisviise lähemalt.
Meditsiiniandmete klassifikaatorid
Sama vaatlust võib kirja panna eri moel (erineva sõnastusega, kirjavigadega jne). Seetõttu on olulisemaid andmevälju üritatud tervishoius standardida. Eesmärgiks on tagada see, et üks ja sama asi (nt ravim) või sama liiki sündmus (haigus) oleks kõigis dokumentides kirjas täpselt ühte moodi. Näiteks diagnoosid on tänapäeval valdavalt esitatud konkreetse klassifikaatori alusel. Eestis on hetkel kasutusel Rahvusvaheline Haiguste Klassifikaator versioon 10 (RHK-10), mis ütleb, millise koodiga mingit haigust täpselt tuleb kirja panna. Näiteks tavaline “külmetushaigus” ehk ülemiste hingamisteede haigused tähistatakse alati koodiga J06, hambasööbija koodiga K02 jne. Sarnased klassifikaatorid on olemas ka ravimite, laborianalüüside ja protseduuride kohta. Selline ühetaoline tähistamine teeb nende andmete analüüsimise oluliselt lihtsamaks, sest ei pea nuputama, kas “nohu”, “ülemiste hingamisteede viirus” ja “külmetus” on üks ja sama haigus või erinevad.
Klassifikaatorid tihtipeale defineerivad ka loogilisi ja hierarhilisi seoseid haiguste vahel. Näiteks RHK puhul on kõik vereringega seotud haigused koondatud I-tähe alla, mille all omakorda näiteks infarktid (I20-I25) ja insuldid (I60-I69) on kategoriseeritud eraldi ning jagunevad taas omakorda alamhaigusteks.
Samas tuleb arvestada, et eri riikides ja ka riigisiseselt võivad eri andmekogudes olla kasutusel erinevad klassifikaatorid. Näiteks haiguste klassifitseerimiseks on RHK kõrval maailmas kasutusel mitmeid teisi haiguste klassifikaatoreid. Seega on andmekogude omavaheline võrdlemine ja tehisintellektil andmetest arusaamine jätkuvalt suur väljakutse.
Iseseisev töö 1
Eestis kasutatav haiguste klassifikaator on vabalt kasutatav sellel veebilehel: (klikka siia)
Leidke seda tööriista kasutades:
- millisele haigusele vastab kood “M54”?
- milline kood vastab lühinägevusele ehk müoopiale?
Õiged vastused leiate siit: (link)
Vabatekstilised meditsiiniandmed
Inimest ja inimese tervist ei ole võimalik ainult klassifikaatoritega ära kirjeldada. Seepärast sisaldavad terviseandmed paljudel juhtudel ka vabatekstilisi arsti märkmed, kuhu arst kirjutab vabas vormis kõike seda, mida ta oluliseks peab ja mis muudes andmetes ei kajastu. Näiteks Eestis esitatakse vabatekstina patsiendi kaebuseid ja raviplaani, aga ka mitmesugust muud infot.
Masinõppe seisukohalt on vabatekstiliste märkmete analüüs keeruline ülesanne, kuna enne sisulise analüüsi juurde jõudmist on tarvis tekstidest vajalik info üles leida ja ühetaolisele kujule viia. See nõuab keeletehnoloogiliste vahendite head tundmist ja rakendamist, kuna lisaks erinevale arstide sõnakasutusele tuleb rinda pista ka kirjavigade ja arvukate lühenditega. Kui tavapärases eesti kirjakeeles on lühendeid umbes 1,7% sõnadest, siis meditsiinilistes märkmetes on neid pea 10 korda rohkem (14%). Seejuures tähistab sama lühend erinevates kontekstides erinevaid asju. Tehisintellekt peab suutma konteksti põhjal lühendi tähendusest aru saada.
Iseseisev töö 2
Järgnevalt on toodud mõned tekstikatked Eesti meditsiinidokumentidest, mis kõik sisaldavad lühendit “p”. Leidke veerust “Lühendi tähendus” igale tekstile õige vaste.
Tekst | Lühendi "p" tähendus |
p silm ei näe | pupill |
kolmas p palavik | pigment |
p 6mm ümmargune | parem |
123/57mmHg p 56x | päeva pärast |
soovitatud uuesti kontrollile 10 p p | pulss |
kehatüvel mitmed p neevused | päev |
Õiged vastused leiate siit: (link)
Iseseisev töö 3
Vaadake Eesti Digiloo näidis-tervisedokumenti:
epikriis.pdf.
Tegemist on näidis-dokumendiga, et näidata, mida kõike on võimalik Eesti tervisedokumenti lisada ja seetõttu on võimalikult palju andmevälju ära täidetud, kuid need ei moodusta terviklikku ja sisulist haiguslugu, seetõttu ärge püüdke dokumenti tervenisti läbi lugeda ega sisust aru saada. Keskenduge pigem dokumendi üldisele struktuurile ja püüdke vastata järgmistele küsimustele:
- Vaadake diagonaalis üle, milliseid põhiplokke üks Eesti tervisedokument sisaldab. Plokid on eraldatud musta joonega, ploki pealkiri on toodud iga sellise joone all.
- Tervisedokumendi üheks kõige olulisemaks infoks on arsti poolt patsiendile määratud diagnoos. Mis on selle haigusloo põhihaigus (põhidiagnoos)?
- Leidke dokumendist vähemalt üks vabatekstiline plokk. Nimetage ploki pealkiri.
Õiged vastused leiate siit: (link)
Meditsiinilised pildid
Tervise jälgimisel ja haiguste diagnoosimisel tuleb tihti kasutada mitmesuguseid meditsiinilisi piltdiagnostilisi uuringuid. Seda haru nimetatakse radioloogiaks ja see põhineb erinevate kiirgusvahenditega saadud meditsiiniliste piltide analüüsil. Kõige olulisemateks radioloogia piltideks võib nimetada röntgenpilte, selle kolmemõõtmelist versiooni kompuutertomograafiat (KT), magnetresonantstomograafiat (MRT) ja ultraheli mõõtmisi. Kui ultraheli puhul on nii pildi tegemisel kui interpreteerimisel arstil oluline roll, siis röntgeni, KT ja MRT puhul on kogu piltide tegemise protsess võrdlemisi standarditud ja neid teeb tavaliselt vajalike tehniliste oskustega inimene, kes ise ei ole arst. Paljude diagnooside jaoks on sätestatud kindlad vaated, mis patsiendist üles võetakse ja pildi tegemisel arst (radioloog) sekkuma ei pea. Radioloogi roll on saatekirja, haigusloo ja pildi põhjal kirjutada kokkuvõte, mis võib sisaldada diagnoosi, põhjendust ja ravisoovitusi. Suur osa radioloogide tööst käib läbi Piltide Arhiveerimise ja Kommunikatsiooni Süsteemi (PAKS), mis edastab pildid koos kaasuva infoga radioloogidele, kes siis saadud info põhjal kirjutavad oma arvamuse. Kuna radioloog patsiendiga kohtuma ei pea, siis ei pea ta ka konkreetses haiglas kohal olema ja piltide tõlgendamist teostatakse selleks spetsialiseerunud keskustes. Näiteks Hiiumaal üles võetud KT pilte hindavad arstid Põhja-Eesti Regionaalhaiglas Tallinnas.
Kuna piltide tõlgendamine toimub juba praegu kaugtööna, on selle protsessi kõik sisendid (saatekiri ja pilt) ja väljundid (meditsiiniline arvamus) radioloogias paika loksunud ning suhteliselt hästi standarditud. Kõik vajalikud andmed on olemas, arstil pole vaja uurida patsiendi terviselugu ega küsida temalt lisainfot. Seega on tegemist ülesandega, mille lahendamisel võiks tehisintellektist abi olla. Pealegi on just pildiandmete analüüs see valdkond, kus tehisintellekti võimekust on edukalt demonstreeritud. Seetõttu nähaksegi radioloogiat tehisintellekti rakendamiseks ühe potentsiaalikama meditsiiniharuna.
Patsiendi kogutud andmed
Seoses nutiseadmete peadpööritava võidukäiguga on viimase kümnendi jooksul tulnud turule suur hulk erinevaid lahendusi ja vidinaid meie terviseseisundi mõõtmiseks. Alates tavapärastest sammulugejatest ja füüsilise aktiivsuse mõõtjatest nii kellade kui telefonidena kuni kehatemperatuuri, pulssi ja rütmihäireid tuvastavate sõrmuste ning kaalu ja veresuhkrut automaatselt mõõtvate seadmeteni. Kuigi kõik see info on tänapäeval veel peamiselt teadusliku uurimise objektiks, ei ole ilmselt kaugel aeg, mil sedasorti patsiendi enda kogutud andmed hakkavad kasutust leidma ka kliinilises praktikas.
DNA andmed
Iga inimene saab alguse ühest rakust, milles on juba olemas informatsioon, kuidas sellest rakust paljude jagunemiste teel inimene saab. See info on salvestatud DNA molekulidesse, mida võib ette kujutada kui pikki järjestusi neljast tähest A, G, C ja T. Nende tähtede - nukleotiidide - järjestus määrab ära, milliseid valke toodetakse, millised protsessid organismis toimuvad ja kuidas see kõik on reguleeritud. Kogu see informatsioon on esitatud umbes 3 miljardi tähemärgiga. Kui inimese DNA ehk genoom oleks sama pikk kui teekond Tallinnast Võruni, siis igal millimeetril asuks 10 nukleotiidi.
Kuigi kõigi inimeste DNA on suuremas osas sarnane, leidub igaühe DNA-s siiski miljoneid eripärasid. Kahe juhusliku inimese DNA erineb keskmiselt 3 miljoni nukleotiidi võrra (umbes 0,1% DNA-st). Suur osa neist erinevustest on ühe nukleotiidi pikkused, näiteks konkreetses positsioonis on A asendatud T-ga, mida kutsume edaspidi geenivariantideks. Kõik pärilikud iseärasused on määratud ühe või mitme geenivariandi poolt, mis mõjutavad meie välimust, kehasiseseid protsesse, aga ka eelsoodumust haiguste tekkele ning vastuvõtlikkust erinevatele ravimitele. Seega kui me oskame seda geneetilist infot lugeda, saame seda ka inimeste ravis kasutada.
Viimase kahe aastakümnega on inimese geenivariantide tuvastamise tehnoloogiad väga kiiresti arenenud. Nüüdseks on võimalik ühest proovist korraga ära määrata suurem osa levinud geenivariantidest ning teha seda suhteliselt odavalt. Taolise testi tulemuseks on patsiendi geenivariantide nimekiri. See nimekiri eraldiseisvana ei selgita aga veel sugugi, milliseid haigusi inimene põeb või millistele on tal eelsoodumus - selleks tuleb geeniandmeid ka tõlgendada ehk omistada geenivariantidele tähendus. Peatume sellel teemal käesoleva loengu teises pooles.
Kliiniliste uuringute jaoks kogutud andmed
Kogu kliinilise meditsiini aluseks on uuringud, mille käigus uuritakse kas mingit haigust, ravimit või muud kliinilist asjaolu ning tulenevalt uuringute järeldustest võidakse teha kliinilises haiguste käsitluses vastavaid muudatusi. Näiteks mistahes ravimi kasutuselevõtuks tuleb eelnevalt läbi viia põhjalikud kliinilised uuringud, et tõestada ravimi tõhusus ja ohutus. Kuna niisugustes uuringutes katsetatakse tavaliselt mingit uudset ravimit või ravimeetodit, siis ei ole võimalik neid läbi viia juba olemasolevate andmete pealt, vaid kindlasti tuleb koguda uusi andmeid. Selleks töötatakse juba enne uuritavate värbamist välja täpsed uuringute protokollid, mis vastavad küsimustele nagu: milliseid ja mitut inimest uurida, kui kaua uurida, millises koguses ravimit anda, mida nende inimeste puhul jälgitakse, kuidas andmeid analüüsitakse jne.
Selliste uuringute läbiviimine on väga kallis ja ajamahukas, kuid selliselt konkreetse eesmärgiga kogutud andmed on ka kõrge kvaliteediga. Teisalt jällegi on sellise andmestiku kasutamine muudeks otstarveteks võrdlemisi keeruline. Näiteks koroonavaktsiini väljatöötamiseks on vaja esmalt läbi viia umbes kolmekuune uuring paarikümnel inimesel, et välja selgitada optimaalne ravimiannuse suurus ja näidata, et sel puuduvad tõsised kõrvaltoimed (kliinilise uuringu I faas). Järgneb uuringu II faas juba umbes paarisajal inimesel kestusega kuni umbes aasta, et näidata, et ravim tõesti töötab ja tuvastada haruldasemad kõrvaltoimed. Järgneb veel suurem uuring (III faas) tuhandetel inimestel, kellest osad saavad vaktsiini ja osad platseebot ehk petteravimit (teadmata, kes saab kumba), et nüüd juba konkreetselt neid kõrvaltoimeid jälgida ning samuti saada kinnitust ravimi efektiivsuses võrreldes platseeboga. Kõik need uuringud on vajalikud vaktsiini efektiivsuse ja ohutuse tõendamiseks ning turuletoomiseks, kuid raske on leida teist teaduslikku küsimust, mida nende andmete pealt muud saaks uurida. Seetõttu on selliste andmete kasutamine mingiks muuks otstarbeks võrdlemisi keeruline.
< eelmine | 8. OSA sisukord | järgmine > |