Arvutiteaduse instituut
  1. Kursused
  2. 2019/20 kevad
  3. Tehisintellekti Algkursus (LTAT.TK.013)
EN
Logi sisse

Tehisintellekti Algkursus 2019/20 kevad

Küsimuste ja/või probleemide korral kirjutage: ti@ut.ee

  • AVALEHT 2021
  • AVALEHT 2020
  • Kursuse korraldus 2020
  • 1. OSA. Sissejuhatus tehisintellekti
  • 2. OSA. Masinõpe
  • 3. OSA. Masinnägemine
  • 4. OSA. Isejuhtivad autod
  • 5. OSA. Keeletehnoloogia

5.1 Miks on keel raske?
5.2 Meetodid
5.3 Kuidas toimib ... ?
5.4 Praktilised näited ja test

  • 6. OSA. Ärianalüütika
  • 7. OSA. Inimese ja roboti interaktsioon
  • 8. OSA. Tehismõistus meditsiinis
  • Viited ja kirjandus
< eelmine 5. OSA Keeletehnoloogiajärgmine >

5.4 Praktilised näited ja test autor: Mark Fišel

Keeletehnoloogia rakenduste katsetamine veebis

Proovi ja katseta järgmisi tööriistu. Tulemusi mingil viisil esitama ei pea, aga testis võib nende tööriistade kohta küsimusi tulla.
  1. Mozilla projekt Common Voice kogub kõneandmeid, et kõikide keelte kõnetuvastus ja -süntees paremini töötaksid. Minge projekti kodulehele ( kliki lingil ), salvestage vähemalt 10 eestikeelset lauset (nupp “Räägi”) ning kontrollige 20 eestikeelset lauset (nupp “Kuula”). Võib ka rohkem! :-). Teeme ära!
  2. Katseta veebirakenduse TÜ tõlkerakenduse veaparandusvõimet: lihtsalt mõtle välja eestikeelne vigadega lause (vale sõnajärjekord, trükivead, vale grammatika või käänded vms) ning “tõlgi” see eesti keelde. Ülesanded on:
    • Leia paar lauset vigadega, mille parandused on õiged
    • Leia veel paar lauset (vigadega või ilma), mille puhul pakub süsteem valesid parandusi -- nt. asendab mõnda sõna vajadusetult vms
  3. Katseta kõnetuvastuse rakendust bark.phon.ioc.ee/dikteeri ning dikteeri sinna 5-10 suvalist lauset (nt. loe ajalehest või mõtle laused välja). Mis on sinu hinnangu järgi selle väljundi (ehk tuvastatud teksti) veaprotsent (mitu sõna tuvastas ta valesti)?
  4. Katseta kahte kõnesünteesi rakendust neurokone.ee ja www.eki.ee/heli paari-kolme lausega, proovi teha erinevaid hääli. Lihtsalt kuula tulemusi :-)

Keeletehnoloogia komponentide katsetamine Pythoni koodis

Loe läbi järgnevad kirjeldused ja vaata läbi viidatud Google Colab vihikud. Nende ülesannete ja vihikute kohta võib testis küsimusi tulla.
  1. Teksti eeltöötlus. Valdav osa tekstitöötlust algab korpuse ehk teksti ettevalmistamisega: teksti on vaja jagada lauseteks, lauseid sõnadeks; vajadusel peab leidma sõnade algvorme, sõnaliike jm. infot. Seda annab teha kasutades Pythoni teeki EstNLTK, ning seda demonstreerib järgmine Colabi vihik. Käivita see kood, asenda tekst mõne teise sinu valitud tekstiga (nt. kopeeri ajalehest või mõtle ise lauseid välja) ning vaata, kuidas selle eeltöötlus toimib. Leia kolm lauset (nt. mitmetähenduslike sõnade või fraasidega), mille puhul on automaatselt leitud sõnaliigid valed.
  2. Sagedased sõnad. Arvutame, kui suurt protsendi tekstist moodustavad selle N kõige sagedamat sõna. Järgmine Colab fail näitab, kuidas saab alla laadida suure eestikeelse korpuse, sooritada vajaliku eeltöötluse, arvutada sõnade sageduse ning arvutada nõutud protsendi. Käivitage see vihik ning vaadake, kui suurt protsenti tekstist katab 100 sagedaimat sõna? 200? 500? Lisaülesanne: muutke koodi nii, et see arvestaks algvorme, mitte sõnade käändevorme, nagu nad tekstis esinevad; juhised on Colabi sees.
  3. Vektoresitused. Viimases harjutuses näete, kuidas luua ise toorteksti abil vektoresitusi sõnadele, kasutades word2vec lähenemist. Mudeli treenimise ja vektorite katsetamise kood on Colabis. Katsetage mudelit etteantud tekstiga ning proovige asendada näitesõnu enda valitud teiste sõnadega. Soovi korral võib isegi etteantud korpuse mõne muu korpusega asendada.

Materjalide kasutamise kohta konsulteerige palun Korduma kippuvad küsimused sektsioonis.
  • Arvutiteaduse instituut
  • Loodus- ja täppisteaduste valdkond
  • Tartu Ülikool
Tehniliste probleemide või küsimuste korral kirjuta:

Kursuse sisu ja korralduslike küsimustega pöörduge kursuse korraldajate poole.
Õppematerjalide varalised autoriõigused kuuluvad Tartu Ülikoolile. Õppematerjalide kasutamine on lubatud autoriõiguse seaduses ettenähtud teose vaba kasutamise eesmärkidel ja tingimustel. Õppematerjalide kasutamisel on kasutaja kohustatud viitama õppematerjalide autorile.
Õppematerjalide kasutamine muudel eesmärkidel on lubatud ainult Tartu Ülikooli eelneval kirjalikul nõusolekul.
Courses’i keskkonna kasutustingimused