Süsteemsete logide analüüsid: vigade, tõrgete, sissemurdmiste ennustamine

  • Vaata Risto Vaarandi tööd Andmekaevanduse uurimisseminarist: Raport P12
  • Kasuta seda ja teisi tööriistu logide analüüsiks.
  • Loetle puuduseid, mõtle välja uusi meetode ja realiseeri mingi parandatud analüüsimeetod.

Veebipõhiste ajalehtede kasutajate käitumisharjumuste analüüs

  • Millist infot oleks vaja? (päris andmete saamine võib olla võimalik)
  • Milliseid analüüsimeetode võiks kasutada?
  • Mida sellest saaks järeldada?
  • Kas loetakse leadi või täisartiklit?
  • Millal loetakse kommentaare?

Http logide analüüsi probleemid:

  • Millised meetodid, mis eesmärgid, jne.
  • Kasutatavad materjalid näiteks KeeleWebi, Expression Profileri jt. logid
  • Võibolla saab Ülikooli http proxy logisid (?)

Episoodide kaevandamine: rakendused, kasutus.

  • Proovi leida episoodide reeglite genereerimise tarkvara.
  • Kui ei leia episoodide realisatsiooni siis tuleks implementeerida (eelistatult C-s).
  • Soorita üks või mitu praktilist analüüsi.
  • DNA analüüs (milised signaalide "episoodid" esinevad sekventsidel?)
  • Logianalüüs (vrdl. süsteemilogid ja httpd logid)
  • Õppeinfosüsteemi andmed, jne..

SPAM-ide analüüs

  • Kuidas tuvastatakse meilide hulgast SPAM-e (Junk-mail).
  • Bayesi meetodid (e.g. Mozilla)
  • Sisu analüüs
  • Klasterdus (klasterda sisu järgi sarnased meilid)
  • Tarbija spetsiifilised soovid
  • Kuidas hiilitakse mööda praegu SPAM-filtritest?
  • Moodusta mingi oma SPAM-ide äratundja.
  • First Conference on Email and Anti-Spam (CEAS)

Stringide klasterdamine

  • Andmed: ühepikkused stringid (näiteks DNA piirkonnad, 1000 tähte pikad).
  • Eesmärk on klasterdada need omavahelise sarnasuse põhjal.
  • Selleks tuleb defineerida sarnasuse mõõdud.
  • Kasutada saab Mart Sõmermaa kirjeldatud Informatsioonisarnasust: Raport P06.
  • Lisaks tuleks kasutada kaugust mis on defineeritud kasutades eelteadmistena infot oluliste mustrite kohta DNA-s.
  • Kolmandaks - defineerida kaugus selle põhjal millised sarnased 3, 4, 5, 6 ,... tähe pikkused alamstringid esinevad sarnastes positsioonides.

Uudiste klassifitseerimine sisu järgi

  • Kasutades uudisteagentuuri uudiste täistekste:
  • Proovi luua klassifitseerija mis oskaks uudiste klassi (näiteks kriminaal vs. sport) ennustada
  • Proovi leida sõnu mille kasutus-sagedus muutub ajas (tuleb kasutusele ja siis kaob)
  • Proovi leida tunnuseid mille järgi uudist loetakse sageli, näiteks kasutades sõnade kasutussageduse muutusi

Fuzzy C-means

  • K-means klasterdab objektid nii et iga objekt kuulub vaid ühte klastrisse. Fuzzy C-means peaks võimaldama objekti kuuluvust mitmesse eri klassi.
  • Millised on võimalikud lahendused, probleemid, küsimused ja rakendused?
  • Kasuta meetodit mingite reaalsete andmete peal (saab juhendajalt).
  • Google: PDF files
  • Google: PS files
  • Otsi ja katseta realisatsioone, nagu näiteks see: näiteks see.

Erinevate haplotüübi segmenteerimisalgoritmide praktiline võrdlus

  • See teema on pakutud välja Sven Lauri poolt.
  • Uurida algoritmide töökiirust(aja jagunemist erinevate etappide vahel).
  • Uurida erinevate algoritmide kvaliteeti (võrreldaval andmekogul soovitavalt mitmel).
  • Uurida erinevate algoritmide robustsust vigadega andmetega (tegelikult oluline ning siin pole hetkel võrreldavaid tulemusi).
  • Uurida algoritmide lõikeomadust
Ideaalis võiks kahe erineva alampopulatsiooni korral haplotüübi segmenteerimine anda kahe blokkideks jaotuse lõike --- vähima tykelduse, millest saab kokku panna mõlemad blokkideks jaotused.
  • Uurida kas tugevad kausaalsed sõltuvused blokkide Markovi ahelas paljastavad alampopulatsioone ning alamsegmentatsioone.
  • Viimase kolme alampunkti korral peaks huvitavate tulemuste korral, saama yhe LPU(Least Publishable Unit) jagu materjali.
  • Eriti programmerida ei tule, sest võrreldavad algoritmid on realiseeritud ning tuleks lihtsalt teha hulk praktilisi katseid ning kirjutada raport.

Klassifitseerijate kombineerimine

  • Kuidas parandada klassifikaatori ennustusvõimet: kirjelda meetode nagu
  • Boosting, bagging, jt.
  • Katsetada neid reaalsete andmete peal (vt. UCI andmestikke, tee koostööd teiste rühmadega, või küsi juhendajalt)
  • Materjale: PDF1 PDF2 PDF3 PDF4 PDF5

Kuidas hinnata klassifitseerija (masinõppimise tulem) headust?

  • Proovi hinnata neid kriteeriumeid mingi konkreetse andmehulga ja masinõppimisprogrammi peal (näiteks Weka)
    • precision
    • recall
    • accuracy
    • ROC curve
    • Classifiers for rare cases
    • Jacknife
    • Leave one out
  • Katsetada neid reaalsete andmete peal (vt. UCI andmestikke, tee koostööd teiste rühmadega, või küsi juhendajalt)
  • Materjale: PDF1 PDF2
Edit: header| contents| footer| sidebar