5. OSA. Keeletehnoloogia autor: Mark Fišel
Sissejuhatus
Enamus meist on puutunud kokku rämpsposti filtriga, mis tuvastab massiliselt ja sisutult saadetud reklaami meie e-kirjade hulgast (isegi kui see filter töötab märkamatult taustal). Kindlasti on kõigile tuttav ka automaattõlge, kas või nt. Google Translate või Tartu Ülikooli Neurotõlge, mis tõlgib tekste automaatselt rohkem kui 100 keele vahel: jah, muidugi teeb see kohati naljakaid vigu, eriti kui eesti keelde tõlkida, kuid siiski suudab see enamasti sisendteksti sisu väljundis kajastada. Hiljuti lisas Telia enda veebilehele juturoboti nimega Mia, mis suudab pidada kasutajatega vestlust ja vastata tüüppäringutele; Elisal on analoogiline lahendus nimega Annika, IKEA-s ja ka mujal maailmas teistes keeltes on loodud palju sarnaseid lahendusi.
Need kolm (rämpsposti filter, masintõlge, juturobot) on näited keeletehnoloogia ülesannetest. Üldisemalt tegeleb keeletehnoloogia inimkeele1 nähtuste modelleerimisega - st. otsib nende nähtuste mudeleid, ehk formaalseid kirjeldusi, mille tulemused oleksid inimtegevusega piisavalt sarnased. Selliste nähtuste hulgas on kõik pisiasjad, mida meie oma igapäevaelus teeme, mis on keelega seotud: loeme teksti ja leiame sealt vajaliku infot, vastame teistele e-kirjade või kõne abil, tuvastame tekstist nimesid või tundmatuid mõisteid või keelevigu, jne. Keeletehnoloogia üritab teha neid asju ühe kaupa, umbkaudselt, kuid automaatselt.
Keeletehnoloogia ülesandeid võib jagada kaheks rühmaks: lõppkasutaja rakendused ja komponendid. Lõppkasutaja rakendustest ongi kasu tavakasutajaile, näiteks: masintõlge, dialoogisüsteemid ehk juturobotid, dikteerimine ehk kõnetuvastus jt. Komponendid on aga sellised ülesanded, mille väljundist ei ole otse lõppkasutajaile kasu, kuid mida on tihti vaja kasutada vahesammuna lõppkasutaja rakenduste juures: nt. sõnade sõnaliikide tuvastamine, sõnade ja lausete struktuuri analüüs, nimede ja teiste nimeüksuste leidmine tekstist, tekstide liigitamine jt.
Kõige olulisem on aru saada, et arvuti ei saa keelest aru nii nagu meie, inimesed, seda teeme. Kõik keeletehnoloogilised rakendused ja lahendused on kitsa tehisintellekti näide (ingl artificial narrow intelligence, ANI), mis tegeleb ainult ühe konkreetselt piiritletud ülesandega, ega oska sellest kaugemale “mõelda” või üldjuhule üldistuda. Näiteks, oskab Google Translate ainult tõlkida, ega saa seejuures aru, kas tekstis on midagi naljakat, solvavat või ohtlikku. Ka rämsposti filter ei saa aru, et kirja tekstis pakutakse midagi osta, pikemaks kasvatada vms, see ainult liigitab kirja teksti kasulikuks või rämpspostiks. Põhjus on selle juures lihtne: ei keeleteadlased ega teised inimesed tea, mida tähendab “keelest arusaamine” ning seetõttu ei oska keegi sellist arusaamist formaalselt, arvutile arusaadavalt, kirjeldada. Sellepärast peamegi piirduma üksikute keelenähtuste umbkaudse lahendamisega.
Ka see on laialt teada, et mitte ainult masintõlge, vaid ka teised keeletehnoloogilised lahendused teevad vigu: juturobotid ei pruugi alati adekvaatselt vastata, e-kirjade hulka satub aeg ajalt ikka rämpsposti, ja ka vastupidi peab mõnikord “kadunud” kasulike kirju rämpsposti kaustast otsima. Põhjus, miks keeletehnoloogilised rakendused eksivad, on lihtne: kuna me ei tea täpselt, kuidas me keelega toimetame (samuti nagu ka pildist arusaamise, jalutamise, andmete töötlemise ja teiste tehisintellekti rakenduste puhul ei tea me, kuidas me seda täpselt teeme) peame leppima umbkaudsete lahendustega, mis ainult ligikaudu imiteerivad inimtegevust.
Selle põhjal on aga järgmine küsimus motivatsioonis: milleks on vaja selliseid lahendusi, mis aeg-ajalt eksivad, sest siis ei ole nad ju usaldusväärsed? Vastus on aga lihtne: paljudest sellistest lahendustest on kasu, kuna nad annavad ikka piisavalt sageli ka õigeid vastuseid. Kui need õiged vastused on piisavalt sagedased, või veakohad piisavalt hästi ennustatavad, siis on lahendus kasulik. Näiteks tehakse tõlkebüroodes väga sageli tõlkimise asemel järeltoimetamist, kus inimene sisuliselt parandab automaattõlke vigu; ka spämmfiltriga on lõpptulemus kontrollitav kasutaja poolt, peaasi, et rämpsposti kirjade tuvastamisvigade sagedus on madal.