< eelmine | 5. OSA Keeletehnoloogia | järgmine > |
5.4 Praktilised näited ja test autor: Mark Fišel
Keeletehnoloogia rakenduste katsetamine veebis
Proovi ja katseta järgmisi tööriistu. Tulemusi mingil viisil esitama ei pea, aga testis võib nende tööriistade kohta küsimusi tulla.
- Mozilla projekt Common Voice kogub kõneandmeid, et kõikide keelte kõnetuvastus ja -süntees paremini töötaksid. Minge projekti kodulehele ( kliki lingil ), salvestage vähemalt 10 eestikeelset lauset (nupp “Räägi”) ning kontrollige 20 eestikeelset lauset (nupp “Kuula”). Võib ka rohkem! :-). Teeme ära!
- Katseta veebirakenduse TÜ tõlkerakenduse veaparandusvõimet: lihtsalt mõtle välja eestikeelne vigadega lause (vale sõnajärjekord, trükivead, vale grammatika või käänded vms) ning “tõlgi” see eesti keelde. Ülesanded on:
- Leia paar lauset vigadega, mille parandused on õiged
- Leia veel paar lauset (vigadega või ilma), mille puhul pakub süsteem valesid parandusi -- nt. asendab mõnda sõna vajadusetult vms
- Katseta kõnetuvastuse rakendust bark.phon.ioc.ee/dikteeri ning dikteeri sinna 5-10 suvalist lauset (nt. loe ajalehest või mõtle laused välja). Mis on sinu hinnangu järgi selle väljundi (ehk tuvastatud teksti) veaprotsent (mitu sõna tuvastas ta valesti)?
- Katseta kahte kõnesünteesi rakendust neurokone.ee ja www.eki.ee/heli paari-kolme lausega, proovi teha erinevaid hääli. Lihtsalt kuula tulemusi :-)
Keeletehnoloogia komponentide katsetamine Pythoni koodis
Loe läbi järgnevad kirjeldused ja vaata läbi viidatud Google Colab vihikud. Nende ülesannete ja vihikute kohta võib testis küsimusi tulla.
- Teksti eeltöötlus. Valdav osa tekstitöötlust algab korpuse ehk teksti ettevalmistamisega: teksti on vaja jagada lauseteks, lauseid sõnadeks; vajadusel peab leidma sõnade algvorme, sõnaliike jm. infot. Seda annab teha kasutades Pythoni teeki EstNLTK, ning seda demonstreerib järgmine Colabi vihik. Käivita see kood, asenda tekst mõne teise sinu valitud tekstiga (nt. kopeeri ajalehest või mõtle ise lauseid välja) ning vaata, kuidas selle eeltöötlus toimib. Leia kolm lauset (nt. mitmetähenduslike sõnade või fraasidega), mille puhul on automaatselt leitud sõnaliigid valed.
- Sagedased sõnad. Arvutame, kui suurt protsendi tekstist moodustavad selle N kõige sagedamat sõna. Järgmine Colab fail näitab, kuidas saab alla laadida suure eestikeelse korpuse, sooritada vajaliku eeltöötluse, arvutada sõnade sageduse ning arvutada nõutud protsendi. Käivitage see vihik ning vaadake, kui suurt protsenti tekstist katab 100 sagedaimat sõna? 200? 500? Lisaülesanne: muutke koodi nii, et see arvestaks algvorme, mitte sõnade käändevorme, nagu nad tekstis esinevad; juhised on Colabi sees.
- Vektoresitused. Viimases harjutuses näete, kuidas luua ise toorteksti abil vektoresitusi sõnadele, kasutades word2vec lähenemist. Mudeli treenimise ja vektorite katsetamise kood on Colabis. Katsetage mudelit etteantud tekstiga ning proovige asendada näitesõnu enda valitud teiste sõnadega. Soovi korral võib isegi etteantud korpuse mõne muu korpusega asendada.
Materjalide kasutamise kohta konsulteerige palun Korduma kippuvad küsimused sektsioonis.