L07: Tekst, infootsingud, masintõlge - ekskurss
Loengukonspekt: Dokument
Peamised teemad:
- Tekst ja sümbolid
- Unicode ja tähestikud
- Infootsing (Information Retrieval)
- Loomuliku keele töötlus (NLP)
- Sagedused ja sõnade tähtsus
- Täpsus ja saagis (Precision and Recall)
- Regulaaravaldised
- UNIX tööriistad: grep, sort, uniq
- Anagrammid ja tekstianalüüs
- Keele mudelid ja semantika
- Meelsuse tuvastamine (Sentiment Analysis)
- Masintõlge ja kõnesüntees
Täiendav info:
- Tüpograafia ajalugu ja fondid
- Kuidas lahendada ristsõnu? (Vt ka Wordle mängu lahendaja kirjeldus
- Lisainfo: Näiteid tekstiressurssidest, UNIX käskudest, teksti töötlemisest
- Keeletehnoloogia ressursid: Lisalinke materjalidele keele ja keele töötluse kohta
- Crash course in Computer Science -- Natural Language Processing
- Õpik Speech and Language Processing (3rd ed. draft) Dan Jurafsky and James H. Martin
- EKI sõnastikud - https://portaal.eki.ee/sonaraamatud.html
- Keeleveeb sõnastikud jne - https://keeleveeb.ee/
- Keeleressursid - https://keeleressursid.ee/et/keeleressursid
- Projekt Gutenberg - https://www.gutenberg.org/
Tagasiside küsimustik: https://forms.gle/umTRrV7j9DTzYxqd6