Iseseisev töö 10
- Ülal kirjeldasime masinõppe süsteemi, mis luges sisse töötlemata meditsiiniandmed, millest suur osa oli vabateksti kujul, ja suutis nende põhjal teha väga täpseid ennustusi. See süsteem oli treenitud kahe USA haigla andmete põhjal. Mõelge, millised probleemid võivad tekkida selle USA andmetel treenitud süsteemi rakendamisel Eestis? Kas USA haiglate andmed on esinduslikud näiteks Põhja Eesti Regionaalhaigla jaoks? Millised aspektid on kõige probleemsemad?
- Isegi kui saame mudeli struktuuri ja teatud aspektid üle kanda, tuleks süsteemi siiski uuesti treenida Eesti andmetel. Oletame, et treenime mudeleid Tartu Ülikooli Kliinikumi andmetel. Kas saadud mudelid on esinduslikud Tallinnas asuva Põhja Eesti Regionaalhaigla jaoks? Aga Hiiumaa haigla jaoks? Millised aspektid on kõige probleemsemad?
- Olgu nüüd meil eelpool kirjeldatud tehisnärvivõrkudel põhinev mudel, mis ennustab tõenäosust, et patsient satub intensiivravi osakonda, mis on treenitud sama haigla viimase viie aasta andmete põhjal. Kui kaua me saame rakendada selles haiglas sama mudelit muutmata kujul? Millised tegurid võivad mudeli prognoose muuta ebaadekvaatseks? Millist mõju avaldaks mudeli ennustuste kvaliteedile muutus keskkonnas, näiteks COVID-19 pandeemia? Kuidas me saaksime hoida mudelit ajakohasena?
Vastus
- Kõige suuremaks probleemiks on võib olla erinev keel. Süsteem, mis on treenitud tuvastama seoseid ingliskeelsest tekstist, ei saa suure tõenäosusega aru eesti keelest. USA ja Eesti tervisesüsteemid erinevad oluliselt ka korraldusliku poole pealt: kuidas suunatakse patsiente spetsialistide juurde, millal ja kui palju tehakse diagnostilisi teste, kas ja kui palju kirjutatakse erinevaid ravimeid välja, milliseid ravimid on üldse turul lubatud jne. Lisaks sisulistele erinevustele erineb ka informatsioon, mida üldse elektrooniliselt talletatakse. Seega võivad USA andmetel treenitud mudelid teha ennustusi niisuguste andmete põhjal, mida Eestis pole ja ignoreerida näidikuid, mis Eestis oleks väga suure ennustustäpsusega.
- Tartu Ülikooli Kliinikum ja PERH on suhteliselt sarnase profiiliga haiglad väga sarnases kultuuriruumis, nii et ühel pool õpitud mudelid võiks töötada ka teisel pool. Hiiumaa haigla puhul võivad aga mudelid valesti kalibreeritud olla. Kliinikumi kogunevad üle terve Lõuna-Eesti kõige keerukamad juhud, paljud sellised haiged lokaalsetesse haiglatesse nagu Hiiumaa oma ei jõuagi. Seega ei pruugi Kliinikumi valim olla Hiiumaa jaoks esinduslik.
- Õiget vastust mudeli rakendamise ajale on raske anda, sest see sõltub paljudest asjaoludest. Kindlasti aja jooksul kasutatud treeningvalimi esinduslikkus kahaneb. Uued haigused nagu COVID-19 võivad muuta riskihinnanguid üleöö, samas demograafilised muutused võtavad märksa kauem aega, kuid avaldavad lõpuks mõju. Kuna mudelid põhinevad elektroonilistel andmetel, siis kindlasti avaldavad mõju muutused selles, mis infot ja kuidas salvestatakse. Ka mudeli enda kasutuselevõtt toob tõenäoliselt kaasa selle, et muudetakse intensiivravisse sattumise ennetamiseks patsientide käsitlust, mis omakorda muudab haiglasiseseid protsesse ja nende käigus kogutavaid andmeid, mil võib mudeli täpsusele olla oma mõju. Mudeli asjakohasuse tagamiseks tuleks selle ennustustäpsust regulaarselt kontrollida ja vajadusel üle treenida. Taoline pidev treeninine muudab aga mudeli rakendamise ja usaldusväärsuse hindamise jällegi keerukamaks.