Üldinfo
Tänapäeval leidub suurel hulgal digitaalseid keeleandmeid (e-kirjad, uudised, sotsiaalmeedia, terviseandmed jne). Selliste andmete rakendamiseks (näiteks uute tehnoloogiate väljatöötamisel) on tarvilik nende automatseeritud töötlemine. Kursuse vältel õpitakse kasutama Pythoni vahendeid keeleandmete töötlemiseks ning masinõppega seotud ülesannete lahendamiseks.
Aine toimub kaks korda nädalas:
- T 12.15 Liivi 2-205 (praktikum)
- T 14.15 Liivi 2-611 (loeng)
NB! Õppetöö algab 01.09!
Teemad
Kursuse käigus käsitletakse järgmiseid teemasid (nimekiri ei ole lõplik):
- Andmemassiivide käsitlemine Numpy abil
- Keeleandmete tehniline eeltöötlus
- Keeleandmete lingvistiline eeltöötlus EstNLTK abil:
- sõna- ja lausepiiride tuvastamine,
- morfoloogiline analüüs ja lemmatiseerimine
- jne
- Keeleandmete kogumine veebist (sh crawling)
- Masinõpe ja selle rakendamine loomuliku keele töötluses:
- Dokumentide klassifitseerimine (nt žanri tuvastamine või spämmifilter)
- Dokumentide mudeldamine vektorruumis
- Sõna-vektor mudelid
- Tekstide ja sõnade klasterdamine
- Informatsiooni ekstraheerimine
- jne
Hindamine
Üliõpilast hinnatakse kursuse vältel tehtud praktikumiülesannete (85%) ning projekti (20% kirjalik raport ning 5% ettekanne) alusel. Kokku on kursusel seega võimalik saada 110%.
Praktikumiülesanded peavad olema lahendatud õigeaegselt ning 75% ulatuses.