Institute of Computer Science
  1. Courses
  2. 2019/20 spring
  3. Artificial Intelligence Entry-level Course (LTAT.TK.013)
ET
Log in

Artificial Intelligence Entry-level Course 2019/20 spring

Küsimuste ja/või probleemide korral kirjutage: ti@ut.ee

  • AVALEHT 2021
  • AVALEHT 2020
  • Kursuse korraldus 2020
  • 1. OSA. Sissejuhatus tehisintellekti
  • 2. OSA. Masinõpe
  • 3. OSA. Masinnägemine
  • 4. OSA. Isejuhtivad autod
  • 5. OSA. Keeletehnoloogia

5.1 Miks on keel raske?
5.2 Meetodid
5.3 Kuidas toimib ... ?
5.4 Praktilised näited ja test

  • 6. OSA. Ärianalüütika
  • 7. OSA. Inimese ja roboti interaktsioon
  • 8. OSA. Tehismõistus meditsiinis
  • Viited ja kirjandus
< eelmine 5. OSA Keeletehnoloogiajärgmine >

5.4 Praktilised näited ja test autor: Mark Fišel

Keeletehnoloogia rakenduste katsetamine veebis

Proovi ja katseta järgmisi tööriistu. Tulemusi mingil viisil esitama ei pea, aga testis võib nende tööriistade kohta küsimusi tulla.
  1. Mozilla projekt Common Voice kogub kõneandmeid, et kõikide keelte kõnetuvastus ja -süntees paremini töötaksid. Minge projekti kodulehele ( kliki lingil ), salvestage vähemalt 10 eestikeelset lauset (nupp “Räägi”) ning kontrollige 20 eestikeelset lauset (nupp “Kuula”). Võib ka rohkem! :-). Teeme ära!
  2. Katseta veebirakenduse TÜ tõlkerakenduse veaparandusvõimet: lihtsalt mõtle välja eestikeelne vigadega lause (vale sõnajärjekord, trükivead, vale grammatika või käänded vms) ning “tõlgi” see eesti keelde. Ülesanded on:
    • Leia paar lauset vigadega, mille parandused on õiged
    • Leia veel paar lauset (vigadega või ilma), mille puhul pakub süsteem valesid parandusi -- nt. asendab mõnda sõna vajadusetult vms
  3. Katseta kõnetuvastuse rakendust bark.phon.ioc.ee/dikteeri ning dikteeri sinna 5-10 suvalist lauset (nt. loe ajalehest või mõtle laused välja). Mis on sinu hinnangu järgi selle väljundi (ehk tuvastatud teksti) veaprotsent (mitu sõna tuvastas ta valesti)?
  4. Katseta kahte kõnesünteesi rakendust neurokone.ee ja www.eki.ee/heli paari-kolme lausega, proovi teha erinevaid hääli. Lihtsalt kuula tulemusi :-)

Keeletehnoloogia komponentide katsetamine Pythoni koodis

Loe läbi järgnevad kirjeldused ja vaata läbi viidatud Google Colab vihikud. Nende ülesannete ja vihikute kohta võib testis küsimusi tulla.
  1. Teksti eeltöötlus. Valdav osa tekstitöötlust algab korpuse ehk teksti ettevalmistamisega: teksti on vaja jagada lauseteks, lauseid sõnadeks; vajadusel peab leidma sõnade algvorme, sõnaliike jm. infot. Seda annab teha kasutades Pythoni teeki EstNLTK, ning seda demonstreerib järgmine Colabi vihik. Käivita see kood, asenda tekst mõne teise sinu valitud tekstiga (nt. kopeeri ajalehest või mõtle ise lauseid välja) ning vaata, kuidas selle eeltöötlus toimib. Leia kolm lauset (nt. mitmetähenduslike sõnade või fraasidega), mille puhul on automaatselt leitud sõnaliigid valed.
  2. Sagedased sõnad. Arvutame, kui suurt protsendi tekstist moodustavad selle N kõige sagedamat sõna. Järgmine Colab fail näitab, kuidas saab alla laadida suure eestikeelse korpuse, sooritada vajaliku eeltöötluse, arvutada sõnade sageduse ning arvutada nõutud protsendi. Käivitage see vihik ning vaadake, kui suurt protsenti tekstist katab 100 sagedaimat sõna? 200? 500? Lisaülesanne: muutke koodi nii, et see arvestaks algvorme, mitte sõnade käändevorme, nagu nad tekstis esinevad; juhised on Colabi sees.
  3. Vektoresitused. Viimases harjutuses näete, kuidas luua ise toorteksti abil vektoresitusi sõnadele, kasutades word2vec lähenemist. Mudeli treenimise ja vektorite katsetamise kood on Colabis. Katsetage mudelit etteantud tekstiga ning proovige asendada näitesõnu enda valitud teiste sõnadega. Soovi korral võib isegi etteantud korpuse mõne muu korpusega asendada.

Materjalide kasutamise kohta konsulteerige palun Korduma kippuvad küsimused sektsioonis.
  • Institute of Computer Science
  • Faculty of Science and Technology
  • University of Tartu
In case of technical problems or questions write to:

Contact the course organizers with the organizational and course content questions.
The proprietary copyrights of educational materials belong to the University of Tartu. The use of educational materials is permitted for the purposes and under the conditions provided for in the copyright law for the free use of a work. When using educational materials, the user is obligated to give credit to the author of the educational materials.
The use of educational materials for other purposes is allowed only with the prior written consent of the University of Tartu.
Terms of use for the Courses environment