MTAT.03.177 Data Mining Problem-Oriented Seminar (3AP)
MTAT.03.177 Andmekaevanduse probleem-seminar (3AP)

Andmed on kopeeritud arhiveerimise eesmärgil. Originaal materjalid on võetud aadressilt.
Materials are copied for arciving purposes. The original source was taken from the address.

  • Kogumaht: 3AP
  • Kestus: 1 sem
  • Kontrollivorm: hinne
  • Korraldaja: Jaak Vilo
  • Koht: Neljapäeviti kl. 10.15-12.00, J. Liivi 2 - ruum 612

Ajakava

  • N. 10. veebruar 2005 - esimene kogunemine
  • 17.02 - Triinu Tasa, Hendrik Nigul, Eero Raudsepp
    materjalid.
  • 23.02 kl 16.15 Matti Kankainen (24.02 on iseseisvuspäev!)
    Koht: TÜMRI/EBK maja, 3. korrus seminariruum.
  • 3.03 (Palmse Talvekool) - seminari ei toimu(?)
  • ...

Lühikirjeldus

Seminari eesmärk on harjutada teadusliku töö tegemist — tutvuda teadusliku kirjandusega, otsida ja esitada probleeme, kirjutada ülevaateid, pidada ettekandeid jne.

Temaatika on seotud andmeanalüüsiga, nagu näiteks bioinformaatika, andmekaevandus, masinõppimine, klasterdamise meetodid jne. On kasulik kui seminari problemaatika haakuks baka-, magistri- ja doktoritöö teemadega.

Töö käigus on oluline oma enda iseseisev uurimuslik töö - otsida artikleid, materjale, sõnastada oma probleem, pakkuda välja võimalikud lahendused, lahendamise etapid, sooritada praktiline analüüs, esitada see kirjalikult arusaadaval kujul, jne.

Osalejad: Probleem-orienteeritud seminari osalejad võivad olla kolmanda-neljanda kursuse tudengid, magistrandid ja doktorandid.

Seminari formaat

Seminar sarnaneb nn "Journal club" stiiliga — iga nädal käiakse kohal, tehakse ettekandeid ja arutletakse probleemide üle. Lisaks tuleb praktiseerida kirjalikku vormistamist. Oluline on aktiivne osalemine seminari töös.

Igal seminari koosviibimisel tuleb ette kandmisele 2-3 erinevat ettekannet. Need jagunevad kolme liiki:

  • Artikli põhjal ettekanne
    Vali välja omaenda uurimistööga kõige rohkem seotud 1-2 artiklit. Koosta nende kohta lühike (kuni 2lk) kirjalik essee. Esita suuline ettakanne (ca 30-35 min. pluss arutelud). Ettekande eesmärk on seletada lahti artiklis tehtu ja kus võimalik näidata edasi arendamise võimalusi.
  • Oma teemapüstituse tutvustus
    Koosta oma uurimistöö plaan - sõnasta ülesandepüstitus ja visanda lahenduskäigud. Vormistus on kirjalik, kuni 2 lk.
  • Oma töö lõpptulemuste esitus
    Koosta oma praktilise töö (näiteks analüüsi tulemus) kohta ülevaade. Vormistus samuti kirjalik, kuni 5 lk.

Kõik kirjalikult vormistatud esseed, raportid jne. tuleb laiali jagada seminari nädalal hiljemalt esmaspäeva õhtuks (seminar on neljapäeval). Seminari teistel osalejatel tuleks neid lugeda ja kommenteerida. Parandatud ja korralikult vormistatud esseed ja raportid kogutakse kokku hiljemalt nädal peale oma ettekande aega, et saaks arvesse võtta ka seminari jooksul saadud kommentaare.

Osalejad

  1. Priit Adler
  2. Darja Kruševskaja
  3. Meelis Kull (?)
  4. Anton Litvinenko
  5. Hendrik Nigul
  6. Hedi Peterson
  7. Eero Raudsepp
  8. Jüri Reimand (?)
  9. Jelena Zaitseva
  10. Triinu Tasa
  11. Asko Tiidumaa

Teemad

Võimalikke teemasid millest võib lisa valida:

Stringide klasterdamine

  • Andmed: ühepikkused stringid (näiteks DNA piirkonnad, 1000 tähte pikad)
  • Eesmärk on klasterdada need omavahelise sarnasuse põhjal.
  • Selleks tuleb defineerida sarnasuse mõõdud
  • Kasutada saab Mart Sõmermaa kirjeldatud Informatsioonisarnasust (Raport P06)
  • Lisaks tuleks kasutada kaugust mis on defineeritud kasutades eelteadmistena infot oluliste mustrite kohta DNA-s.
  • Kolmandaks - defineerida kaugus selle põhjal millised sarnased 3, 4, 5, 6 ,... tähe pikkused alamstringid esinevad sarnastes positsioonides
  • Kas infosisaldust saab välja arvutada ka kahe stringi ühise sufiksipuu suuruse järgi?

Fuzzy C-means

  • K-means klasterdab objektid nii et iga objekt kuulub vaid ühte klastrisse. Fuzzy C-means peaks võimaldama objekti kuuluvust mitmesse eri klassi.
  • Millised on võimalikud lahendused, probleemid, küsimused ja rakendused?
  • Kasuta meetodit mingite reaalsete andmete peal (saab juhendajalt).
  • Google: PDF files
  • Google: PS files
  • Otsi ja katseta realisatsioone, nagu näiteks see: näiteks see

Kuidas hinnata klassifitseerija (masinõppimise tulem) headust?

  • Proovi hinnata neid kriteeriumeid mingi konkreetse andmehulga ja masinõppimisprogrammi peal (näiteks Weka)
  • - precision
  • - recall
  • - accuracy
  • - ROC curve
  • - Classifiers for rare cases
  • - Jacknife
  • - Leave one out
  • Katsetada neid reaalsete andmete peal (vt. UCI andmestikke, tee koostööd teiste rühmadega, või küsi juhendajalt)
  • Materjale (PDF1 PDF1)

Abimaterjalid, programmid, andmestikud jne