< eelmine | 5. OSA sisukord | järgmine > |
5.1 Miks on keel raske? autor: Mark Fišel
Mitmes loengus oleme rääkinud sellest, et tehisintellekti rakendused eksivad vahel. Siin püüame selgitada, miks just keelega töötades ei tea me, kuidas keele kasutamist tehisintellekti abil 100% õigesti imiteerida. Teiste sõnadega: miks teevad keeletehnoloogilised rakendused vigu palju sagedamini kui inimesed.
Üks suur keele keerulisuse allikas on mitmetähenduslikkus. Nii sõnu, kui terveid fraase, lauseid ja grammatilisi konstruktsioone võib sageli tõlgendada mitmel erineval viisil. Vaatame näiteid järgneval joonisel:
Need on näited mitmetähenduslikest sõnadest, kuid ka fraasi või lause tasemel esineb samasugust mitmesust: nt. võib tõlgendada fraasi “professori nahast portfell” nii nahast portfellina, mis kuulub professorile, kui ka portfellina, mis on tehtud professori nahast, mille kohta ärme näidispilti siia loengusse lisame. Veel üks näide, seekord päriselust: Tartu turu juures oli mõned aastad tagasi kuulutus tekstiga “kadunud valge sabaga kass”; kas tegu on kassiga, kellel on kadunud valge saba?, või on kadunud valge kass, kelle üks eripära on see, et tal on saba?, või on hoopis kadunud kass, kelle saba oli valge, ja ülejäänud kassi värvus ei ole mainitud? Inimesele tundub tihti ilmselge see, milline tõlgendus õige on, kuid see info ei sisaldu otse sõnades endis.
Selliseid mitmesuse näiteid esineb igas keeles ja mitmel tasemel, ning see teeb keelega töötamise nii raskeks kui ka põnevaks. Inimesed lahendavad seda mitmesust, kasutades konteksti: nt. kui lause sisaldab lisaks sõnale “keel” teisi sõnu nagu “rääkima” või “tõlkima”, siis on tõenäoline, et see “keel” tähendab just suhtlusvahendit, mitte pinguldatud häälestatavat heliallikat muusikainstrumendil või liikuvat elundit suuõõne põhjas. Samuti on paljud mitmetähenduslikkuse näited sellised, kus ainult üks tõlgendamise variant on mõistlik. Näiteks arvestades meie kultuurilist konteksti on ilmselgelt aru saada, mida tähendab “professori nahast portfell”. Need kaks mitmesuse lahendamise allikat (mõistlikkus ja konteksti arvestamine) muidugi ei lahenda kõiki juhtumeid (nagu kadunud kassi või saba puhul). Lisaks on need automaatsete lahenduste jaoks praktiliselt kasutud:
- arvutiprogrammid ei tea, mis on mõistlik. Lähim asendus mõistlikkusele on antud juhul see, kui sage mõni keeleline näide või selle tõlgendamisviis on keeleandmetes
- konteksti arvestamine on arvutiprogrammide jaoks väga raske või võimatu. Keeletehnoloogiliste ülesannete lahendamine juba omaette nõuab keerulisi lähenemisi ning selleks, et asju mitte veel keerulisemaks ajada, jäetakse enamasti kontekstiga arvestamine mudelitest välja
Teine põhjus, miks keeletöötlus on keeruline, seisneb selles, et ükski inimkeel ei koosne sõnade või mõistete lõplikust nimekirjast:
- Keele kasutamise käigus ning erinevate faktorite mõju all keel muutub: sõnad kaovad sellest või tekivad juurde, samuti ka keele reeglid muutuvad. Näiteks 100 aastat tagasi ei oleks Eestis keegi aru saanud sõnast “meem”, või isegi “sülearvuti”; samas aga oli 19. sajandi lõpus õige öelda “tüdrukud läksivad”, mitte “läksid”2.
- Ühe keele sees peitub tegelikult palju erialakeeli ja žargoone. On raske piiritleda, millal lõpeb üks keel ja algab mõni selle dialekt või isegi omaette uus keel.
- Paljudes keeltes on olemas viljakas uute sõnade moodustamise mehhanism. Eesti keeles on selleks mehhanismiks liitsõnad: nt. sõna “elevandilondikondiüdi” on võib-olla kohmakas, kuid keeleliselt täiesti korrektne. Teine näide: kauplust, kus müüakse katuseid, võib nimetada “peavarjupoeks”, mis on eesti keelt rääkivatele inimestele arusaadav, kuid nt. Google otsing leiab sellele 0 vastet. Lisaks sellele on eesti keeles rikas morfoloogia ning igal nimisõnal on kuni 30 erinevat vormi (14 käänet + lühike sisseütlev= 15 vormi, ainsuses ja mitmuses = 15 × 2). Tegusõnadel on samuti palju vorme, mis tähendab, et isegi tuttavad sõnad esinevad erinevatel kujudel.
Kõik see aga tähendab, et me ei saa kunagi andmetest näha või kirja panna ühe keele kõiki võimalikke sõnu, grammatilisi konstruktsioone ega fraase. Ükskõik kui pika sõnastiku me koostame ja ükskõik kui suurt keeleandmestikku me kasutame, peab ikka arvestama, et jääb selliseid sõnavorme, sõnu ja muid keelelisi elemente, mida see ei sisalda. Seda võib illustreerida järgneva graafikuga, mis näitab tekstiandmestiku suurust ja selles sisalduvate unikaalsete sõnavormide arvu: kui unikaalsed sõnad saaksid mingil hetkel otsa, siis läheks see kõver paremal pool horisontaalseks; see aga kasvab kuni graafiku lõpuni välja.
Loodetavasti on meil nüüdseks õnnestunud teid veenda selles, et keel on nii keeruline kui kindlasti põnev, ning ka selles, et juba praegusel tasemel võivad keeletehnoloogilised rakendused kasulikud olla. Seega edasises vaatame erinevaid lähenemisi keeletehnoloogilistele ülesannetele (peatükk 5.2) ning konkreetsete ülesannete ja nende lahenduste näiteid (peatükk 5.3). Seejärel kirjeldame antud kursuse praktilisi ülesandeid (peatükk 5.4).
1 Inimkeelte hulgas on kõik keeled, mida kasutavad inimesed suhtlemiseks -- sh. loomulikult tekkinud keeled nagu eesti, inglise, vene, jne, ja ka tehiskeeled nagu Esperanto ja Toki Pona; muidu on ju olemas ka nt. programmeerimiskeeled, mida me siin ei käsitle 2 Vt. nt. http://www.folklore.ee/rl/pubte/ee/eluolu/elu1/19.html
< eelmine | 5. OSA sisukord | järgmine > |