Institute of Computer Science
  1. Courses
  2. 2024/25 spring
  3. Digital Technology - an Overview (LTAT.00.020)
ET
Log in

Digital Technology - an Overview 2024/25 spring

  • Pealeht
  • Loengud
    • L00 - sissejuhatus
    • L01 - bitt
    • L02 - progemine
    • L03 - algoritm
    • L04 - programmeerimiskeeled
    • L05 - pilt
    • L06 - andmestruktuur
    • L07 - tekst ja otsing
    • L08 - andmebaas
    • L09 - op-süsteem
    • L10 - arvutivõrk
    • L11 - tehisaru
    • L12 - optimeerimine
    • L13 - võrgustikud
    • L14 - infoturve
    • L15 - tarkvaratehnika
    • L16 - muutused
  • Kodutööd
    • Ülesanded
  • Hindamine
  • Zulip vestlustuba
  • Infokirjad
  • Lisamaterjalid
    • Jätkukursused
    • ChatGPT näiteid
  • Tagasiside

L07: Tekst, infootsingud, masintõlge - ekskurss

  • Slaidid L07 - PDF
  • Loengukonspekt: Dokument
  • Panopto - L07 - Tekst ja infootsing

Peamised teemad:

  • Tekst ja sümbolid
  • Unicode ja tähestikud
  • Infootsing (Information Retrieval)
  • Loomuliku keele töötlus (NLP)
  • Sagedused ja sõnade tähtsus
  • Täpsus ja saagis (Precision and Recall)
  • Regulaaravaldised
  • UNIX tööriistad: grep, sort, uniq
  • Anagrammid ja tekstianalüüs
  • Keele mudelid ja semantika
  • Meelsuse tuvastamine (Sentiment Analysis)
  • Masintõlge ja kõnesüntees

Täiendav info:

  • Tüpograafia ajalugu ja fondid
  • Kuidas lahendada ristsõnu? (Vt ka Wordle mängu lahendaja kirjeldus
  • Lisainfo: Näiteid tekstiressurssidest, UNIX käskudest, teksti töötlemisest
  • Keeletehnoloogia ressursid: Lisalinke materjalidele keele ja keele töötluse kohta
  • Crash course in Computer Science -- Natural Language Processing 
  • Õpik Speech and Language Processing (3rd ed. draft) Dan Jurafsky and James H. Martin
  • EKI sõnastikud - https://portaal.eki.ee/sonaraamatud.html
  • Keeleveeb sõnastikud jne - https://keeleveeb.ee/
  • Keeleressursid - https://keeleressursid.ee/et/keeleressursid
  • Projekt Gutenberg - https://www.gutenberg.org/

Tagasiside küsimustik: https://forms.gle/umTRrV7j9DTzYxqd6

  • Institute of Computer Science
  • Faculty of Science and Technology
  • University of Tartu
In case of technical problems or questions write to:

Contact the course organizers with the organizational and course content questions.
The proprietary copyrights of educational materials belong to the University of Tartu. The use of educational materials is permitted for the purposes and under the conditions provided for in the copyright law for the free use of a work. When using educational materials, the user is obligated to give credit to the author of the educational materials.
The use of educational materials for other purposes is allowed only with the prior written consent of the University of Tartu.
Terms of use for the Courses environment