Programmeerimisest maalähedaselt - Kursused

4.3 Silmaring. Keeletehnoloogia I

KEELETEHNOLOOGIA

Keeletehnoloogia on valdkond, mis tegeleb programmide ja rakenduste loomisega, mis võimaldavad arvuti abil inimkeelt mõista ja töödelda. Selles peatükis saad lugeda paarist huvitavast keeletehnoloogia suunast, millega oled ehk enda teadmata juba kokku puutunud.

KIRJALIKU TEKSTI TUVASTUS

Tekstituvastus (ingl Optical Character Recognition ehk OCR) on arvutiteaduse osa, mille ülesandeks on tarkvara abil tuvastada pildilt teksti. Tekstituvastustarkvara tunneb ära tähed, numbrid ja kirjavahemärgid ning muudab need arvutile arusaadavaks. Edaspidi on tuvastatud teksti võimalik tavapäraselt arvutis redigeerida ning ühtlasi saab sellest tekstist näiteks otsisõnade abil vajalikku infot leida.

Arenenumad tekstituvastussüsteemid suudavad tuvastada väga paljudes erinevates fontides teksti. Siiski pole tulemus alati täpne - seda mõjutavad nii pildi kvaliteet kui ka näiteks teksti kujunduselemendid.

Tekstituvastuse abil on digiteeritud väga paljusid arhiive. Muuhulgas võimaldab see ka näiteks kaameratel autode numbrimärke tuvastada. Samuti leiab see kasutust postkontorites ümbrike sorteerimise automatiseerimisel. Üks tekstituvastuse algseid ja edukalt täidetud eesmärke oli aga pimedatele tekstide ettelugemise võimaldamine.

Üks kiiduväärt tekstituvastuse rakendus on Gutenbergi projekt. See on Michael S. Harti 1971. aastal algatatud vanim digitaalraamatukogu. Sinna on kogutud ja digiteeritud üle 62 000 avalikult kasutatava raamatu. Raamatud on saadaval nii lihttekstina kui ka näiteks HTML-, PDF- ja EPUB-vormingutes. Enamik raamatuid on inglise keeles, kuid korralikult on esindatud ka saksa-, prantsuse-, itaalia- ja portugalikeelsed raamatud. Kuni 1989. aastani sisestati teosed käsitsi, pärast seda võeti kasutusele tekstituvastustarkvara. Inimsilm on kõik tekstituvastustarkvara abil lisatud raamatud üle toimetanud.

Tänapäeval suudetakse tuvastada ka käsitsi kirjutatud tekste, kuigi selle puhul on tuvastusprotsent tunduvalt väiksem, sest inimeste käekirjad on erinevad ning tihti ei ole isegi ühe inimese käekiri alati samasugune. Käekirja tuvastamisega tegelev tarkvara on tavaliselt õppimisvõimeline - tarkvara suudab end kohandada uute käekirjadega.

Selleks, et suurendada tuvastusprotsenti ning vähendada erinevatest käekirjadest tulevaid erisusi, on proovitud seadmetes kasutada tavalise kirjutamise asemel ka erilisi tähestikke. Näiteks kunagistes Palm pihuarvutites kasutati kirjutamiseks tähestikku nimega Graffiti (vt pilt 1), mis sisuliselt kujutas endast lihtsustatud varianti trükitähtedest. See kindlustas, et enamik inimesi kirjutavad oma teksti sarnaselt ning arvutil pole seda nii raske tuvastada.

Lisaülesanne: Rahvusraamatukogu on digiteerinud eesti ajalehed ning need internetis kättesaadavaks teinud. Vali mõni enne 1945. aastat välja antud ning mõni käesoleva aasta väljaanne. Vajutades pildil ajalehe leheküljest paremat hiireklahvi ning valides avanevas menüüs "Selle lk. tekst", saad vastava lehekülje automaatselt tuvastatud teksti. Võrdle, kuidas erineb tekstituvastuse täpsus vana ja uue ajalehe puhul.

NB! Võimalik on kasutada ka sealset otsingut, et leida ülesande lahendamiseks just endale huvipakkuvat teemat käsitlevad kaks ajalehte.

MASINTÕLGE

Keeletehnoloogia üks valdkondi on masintõlge. Masintõlge seisneb arvuti abil teksti või kõne tõlkimises ühest keelest teise.

Kõige lihtsam masintõlke variant on sõnastikupõhine. See tähendab, et tõlgitavas tekstis asendatakse sõnastiku abil iga algne sõna vastava sõnaga soovitud keeles. Sõnastikupõhine masintõlge võib olla täiesti piisav, kui tõlgitavaks materjaliks on lihtsad fraasid nagu näiteks "ilus poiss". Küll aga on see võrdlemisi kasutu pikemate lausete tõlkimisel, sest ei võeta arvesse vastavate keelte semantikat ega süntaksit.

Tänapäeval kasutatakse valdavalt statistilist masintõlget. Niisuguse tõlke puhul tõlgitakse tekst vastavalt statistilistele mudelitele, mis saadakse paralleeltekstide analüüsimisel. Paralleeltekstid on sama sisuga mitmes keeles esinevad tekstid, näiteks Euroopa Liidu seadused. Tõlge saadakse tuginedes sellele, kuidas sarnaseid tekste on varem tõlgitud.

Lähemalt masintõlke ajaloo ja meetodite kohta võite lugeda Heiki-Jaan Kaalepi ja Mare Koidu artiklist "Kuidas masin tõlgib".

Üks tuntumaid statistilise masintõlke rakendusi on Google Translate. Kindlasti tasub vaadata seda Google'i tehtud videot, mis seletab lihtsasti, kuidas see tõlkimisprotsess täpselt töötab. Video on inglise keeles, kuid saab valida eestikeelsed subtiitrid. Selleks tuleb klõpsata videoakna all paremas nurgas olevale (hammasratta) nupule ning avanenud menüüst valida subtiitrite keeleks eesti keel. Subtiitreid (CC) saab sisse ja välja lülitada ka nupule vajutades.

Google Translate võimaldab tõlkida nii kasutaja enda sisestatud teksti kui ka terveid veebilehekülgi. Lisavõimalustena on saadaval

kasutatavate keelte virtuaalsed klaviatuurid,
võimalus sisestatud keel automaatselt tuvastada,
võimalus vasteid foneetilise kirjapildiga esitada (kui tõlge pole ladina tähestikus),
võimalus sisestatud sõnade hääldust kuulata.

Osade keelte tõlkega on Google Translate jõudnud arvestatavale tasemele, näiteks inglise-prantsuse tõlge on küllaltki täpne. Sama ei saa väita inglise-eesti tõlke kohta. Tingitud on see nii inglise ja prantsuse keelte suuremast omavahelisest sarnasusest kui ka sellest, et vajalikke paralleeltekste on rohkem.

Google Translate toetab hetkel 109 erinevat keelt, kuid tasub arvestada, et soovides tõlkida näiteks läti keelest mongoolia keelde, kasutatakse vaheastmena inglise keelt. See tähendab, et rakendus tõlgib kõigepealt teksti läti keelest inglise keelde ja seejärel saadud tulemuse inglise keelest mongoolia keelde.

Tõlkimisel mängib suurt rolli ka teksti sisu. Instruktsioone ja pealiskaudseid dialooge arusaadavalt tõlkida on lihtne, aga ilukirjanduslike teoste või suisa luuletuste tõlkimisel võib saada väga kummalisi tulemusi.

Seda kõige arvestades pole ka imestada, et tõlked tihtipeale soovida jätavad.

Lisaülesanne: Järgnevalt on esitatud tekst Lewis Carrolli raamatust "Alice Imedemaal" originaalkeeles ja selle eesti- ning venekeelne tõlge. Eesti keelde on teose tõlkinud J. Kross ja vene keelde N. Demurova.

"Alice was beginning to get very tired of sitting by her sister on the bank, and of having nothing to do: once or twice she had peeped into the book her sister was reading, but it had no pictures or conversations in it, 'and what is the use of a book,' thought Alice 'without pictures or conversations?'

So she was considering in her own mind (as well as she could, for the hot day made her feel very sleepy and stupid), whether the pleasure of making a daisy-chain would be worth the trouble of getting up and picking the daisies, when suddenly a White Rabbit with pink eyes ran close by her."

"Alice oli juba õige tüdinenud istumast tegevusetult õe kõrval jõepervel. Korra või teise oli ta kiiganud raamatusse, mida õde luges, kuid selles polnud ei pilte ega tegelaste kõnelusi, ja Alice mõtles: "Mis kasu on raamatust, kus pole ei pilte ega kõnelusi?"

Nüüd ta siis arutas (nii hästi-halvasti kui suutis, sest päeva kuumus tegi ta kangesti uniseks ja roiuks), kas lõbu, mida saaks karikakrapärja punumisest, kaaluks üles püstitõusmise ja karikakarde noppimise vaeva - kui äkitselt jooksis üsna ta juurest mööda valge roosasilmaline küülik."

"Алисе наскучило сидеть с сестрой без дела на берегу реки; разок-другой она заглянула в книжку, которую читала сестра, но там не было ни картинок, ни разговоров. -- Что толку в книжке, -- подумала Алиса, -- если в ней нет ни картинок, ни разговоров?

Она сидела и размышляла, не встать ли ей и не нарвать ли цветов для венка; мысли ее текли медленно и несвязно -- от жары ее клонило в сон. Конечно, сплести венок было бы очень приятно, но стоит ли ради этого подыматься? Вдруг мимо пробежал кролик с красными глазами."

Proovi Google Translate'i abil tõlkida selle teksti ingliskeelset varianti eesti ja vene keelde. Võrdle saadud tulemust päris tõlgetega. Proovi ka näiteks saadud tulemust Google Translate'iga tagasi inglise keelde tõlkida. Mida märkad?

Google translate'i abil eesti keele tõlkimisel tekkivatest probleemidest saate lähemalt lugeda Toomas Koitmäe ja Merli Mänduli artiklist "Masintõlge - kas emakeele päästerõngas?"

Tartu Ülikooli arvutiteaduse instituudi keeletehnoloogia teadusgrupi masintõlke töörühm on loonud oma väikese eesti-inglise-eesti masintõlkesüsteemi. Vahel annab see süsteem paremaid vasteid kui Google Translate.

Lisaülesanne: Proovi aadressil https://neurotolge.ee/ asuvat rakendust mõne lause tõlkimiseks ning võrdle saadud tulemust Google Translate'i poolt pakutuga. Näiteks võid proovida lauseid "Ära pane teda tähele", "Mind pole küll vaja aidata" või mõnda muud meelepärast.

Mark Fišeli loeng masintõlkest

Mark Fišel töötab TÜ arvutiteaduse instituudis ning tegeleb masinõppe meetodite rakendamisega inimkeeltele. Üks tema peamisi tegevusvaldkondi on masintõlge, tema uurimisrühm uurib masintõlke meetodeid ja samuti teeb koostööd äripartneritega, arendades masintõlke ja keeletehnoloogia rakendusi. Soovi korral saad vaadata tema loengut kursuse Andmeteaduse võimalused äriettevõttes jaoks:

Keeletehnoloogiast räägime ka edaspidi silmaringi materjalides.

ALLIKAD

Suur tänu Kadri Varele, kes saatis järgmised lingid eesti keelega seotud võimalustele

Masintõlge, inglise-eesti-inglise: http://tilde.ee/
Emotsioonituvastaja. Reaalajas töötav emotsioonituvastaja beetaversioon tuvastab aktiivsuse-passiivsuse ning positiivsuse, negatiivsuse, neutraalsuse: https://github.com/EKT1/emotional
Kõnetuvastus. Dikteeri: reaalajaline kõnetuvastus veebibrauseris: http://bark.phon.ioc.ee/dikteeri/
Kõnele: eestikeelne kõnetuvastus Androidil: https://play.google.com/store/apps/details?id=ee.ioc.phon.android.speak
Arvutaja: kõnetuvastuse abil kasutatav "intelligentne abimees" Androidile: https://play.google.com/store/apps/details?id=ee.ioc.phon.android.arvutaja
Diktofon: kõnesalvestaja ja salvestuste transkribeerija Androidile: https://play.google.com/store/apps/details?id=kaljurand_at_gmail_dot_com.diktofon
Kõnesalvestuste brauser: automaatselt transkribeeritud raadiosaadete arhiiv: http://bark.phon.ioc.ee/tsab/p/index
Kollokatsioonide tuvastamine https://korpused.keeleressursid.ee/clc/
EstNLKT: Pythoni teegid eestikeelsete vabatekstide lihtsamaks töötlemiseks https://github.com/tpetmanson/estnltk

 https://www.keeletehnoloogia.ee/et/ekt-projektid/estnltk-pythoni-teegid-eestikeelsete-vabatektside-lihtsamaks-tootlemiseks,

Audiovisuaalse kõnesünteesi prototüüp: http://massy-est.phon.ioc.ee/MASSY/peamudel.php

Materjali koostasid Agnes Lepikult ja Mari-Liis Allikivi. Kohendatud kursuse korraldajate poolt.

< eelmine

4. OSA sisukord

järgmine >

Programmeerimisest maalähedaselt 2022/23 kevad