Nr | Aeg | Teema | Sisu |
1. | 1.-8.sept | Sissejuhatus | Mis on andmeteadus? Kus ja milleks andmeteadust kasutatakse? Mis on andmeteaduse edulood? Koolituse korralduse ja kasutatava tarkvara (Python, Jupyter Notebook, GPT-4) tutvustamine. Tekstirobotite (nt GPT-4) kasutamise alused. |
2. | 8.-15.sept | Andmete mõistmine ja eeltöötlus | Põhilised andmetüübid, histogrammid, tõenäosusjaotused, nende visualiseerimine, korrelatsioon ja põhjuslikkus. Andmete puhastamine ja puuduvate väärtuste asendamine. |
3. | 15.-22.sept | Andmete visualiseerimine | Graafiku osad ning nende komponeerimine kasutades graafikute grammatikat. Peamised graafikute tüübid ning nende kasutus, praktilised nõuanded graafikute valimisel. |
4. | 22.-29.sept | Juhendamata masinõpe | Andmete vektoresitused. - klasterdamine, k-keskmiste meetod, hierarhiline klasterdamine, kaugusmõõdud. Peakomponentanalüüs (PCA), keeruliste struktuursete andmete vektoresitused (embeddings). |
5. | 29.sept.-6.okt | Klassikaline juhendatud masinõpe | Klassikaline juhendatud masinõpe - klassifitseerimine, otsustuspuud, K lähima naabrite meetod, tugivektormasinad (SVM), ansambelmeetodid. Regressioon, lineaarregressioon. |
6. | 6.-13.okt | Masinõppe töövoog. Tehisnärvivõrgud | Ülesobitamine, regulariseerimine, ristvalideerimine, hüperparameetrite optimeerimine, masinõppe töövoog. Tehisnärvivõrgu mõiste, võrgu treenimine, tavalisemad arhitektuurid - pärilevivõrgud, konvolutsioonid, rekurrentsed võrgud, transformerid. |
7. | 13.-20.okt | Statistika alused | Valim ja populatsioon, hüpoteeside testimise alused, p-väärtus, permutatsioonitest, usalduspiirid, t-test, aegread, autokorrelatsioon. |
8. | 20.-27.okt | CRISP-DM metoodika. Tüüpvead andmeanalüüsis ja masinõppes | CRISP-DM metoodika, selle etapid ja nende olulisus, CRISP-DM itereerimine, rakendamine moodsas andmeteaduses. Tüüpvead andmeanalüüsis ja masinõppes - andmete kogumise vead, ekslikud statistilised järeldused, eelarvamuste mõju ja kinnitamine, andmeleke masinõppes, andmenihe. |
9. | 27.okt-3.nov | Andmebaasid. Privaatsus. | Relatsioonilised andmebaasid ja SQL, mitte-relatsioonilised andmebaasid ja päringukeeled, andmete turvalisus. Privaatsus, anonümiseerimine, diskrimineerimine, andmekaitse, GDPR. |
10. | 3.-17.nov | Kursuse projekt | Praktilise andmeteadusliku ülesande lahendamine enda valitud teemal kuni kolmeliikmelises rühmas |