Praktiliste seminaritööde teemad

Siin on mõned väljapakutud seminaritöö teemad, alati võib ise juurde pakkuda (eeldusel, et need tagavad ~60 tundi akadeemilist tegevust). Kuna siinpakutud teemad on üsna mahukad, on neist enamus mõeldud grupitööna.

Dimensionaalne modelleerimine

On antud ülikooli õppeinfosüsteem - keeruka struktuuriga andmebaas, mis sisaldab kõikvõimalikku infot üliõpilaste, õppetöö ja nende omavaheliste seoste kohta.

Paar aastat läheb mööda ning ülikool tahab analüüsida, kuidas neil läheb - palju eksameid on tehtud, palju ainepunkte välja antud, palju eksamite läbikukkumisi, millised on eksamitulemused, jne. Seda muidugi teaduskondade, õppetoolide, lektorite, üliõpilaste, välisüliõpilaste jne lõikes.

  1. Koostada dimensionaalne mudel sellise analüüsi tegemiseks
  2. Transformeerida õppeinfosüsteemi andmed uuele dimensionaalsele kujule
  3. Realiseerida transformatsioonid ETL skriptidena (või kirjeldada implementatsiooni).

Standarditepõhine integreerimine andmelaonduses

Kuidas kasutada OMG standardeid CWM, JMI, XMLA jne andmelaonduses ja seotud süsteemide integreerimisel.

vt. Poole'i artikkel

Valitud: Ilja, Jevgeni

Toodete (oma)hinna analüüs

Ettevõte tahab arvutada oma teenustele omahinda, mis sõltub lisaks veel ka müügikanalist ja kliendisegmendiks. Üldkulude allokeerimiseks on kasutusele võetud Activity Based Costing nimeline tehnika, mis sisaldab kokku 160 000 reeglit kulude jagamiseks 45 000 objektile (sh. 1000 sisend- ja 2500 väljundobjekti).

Neid reegleid kasutades on nüüd võimalik arvutada välja ettevõtte kulud täiesti uues lõikes (toode, kanal, kliendisegment) ja loodetavasti arvutada neis lõigetes ka kasumlikkust ...

Hüva. Kohe tekib küsimus, kuidas sellises suurusjärgus allokatsioone on võimalik inimesel analüüsida? Millistest alg-komponentidest tekib konkreetse toote omahind? Millised tegevused/tööprotsessid on mingi toote müümisel või teenuse pakkumisel kõige kallimad?

  1. Koostada algoritm, mis arvutaks (pöörd)allokatsioone kasutades iga toote,kanali,jne kombinatsiooni jaoks välja, millistest (alg)allikatest ja millises osakaalus pärinesid kulud.
  2. Moodustada dimensionaalne vaade, mis võimaldaks analüüsida kulusid allikate (strutuuriüksuste, kontode e. kulutüüpide), tegevuste (ettevõtte tööprotseduuride) ning toodete, kanalite ja kliendisegmentide lõikes.

Valitud: Andrus, Kristo

Aggregate selection

Andmelao (ja relatsioonilise OLAP) päringute realiseerimiseks on tüüpiliselt kasutusel materialiseeritud vaated (vt. materialized views), et vältida igakordset summeerimist üle miljardite kirjete. Oracle, IBM, Teradata ja mõningad teised andmelao platvormid toetavad seda, kuid lihtsamatel nt. MySQL ja PostgreSQL pole sellist funktsionaalsust sisse ehitatud. Kui tahta ehitada vabavaralist andmeladu, siis kuidas seda funktsionaalsust saavutada?

Agregaat-vaadete tekitamine ja värskendamine

PostgreSQL-s on proovitud teha workarounde, vaata:

Kuna täht-skeemid on universaalse struktuuriga - kas õnnestuks eelagregeeritud 'kuupe' tekitada lihtsamalt?

Jääb veel küsimus, milliseid vaateid materialiseerida - selle kohta on kirjutatud palju teadusartikleid (vt google scholar ja citeseer).

Valitud: Natalia

Päringualgoritm

Kui meil on materialiseeritud vaated andmelaos olemas, siis nüüd peaks ka päringumootor kuidagi aru saama, millal üht või teist vaadet kasutada.

Approximating query results

On välja pakutud meetodeid ja andmestruktuure, mis annavad mahukale päringule kiiresti umbkaudse vastuse, kuid täpse tulemuse kalkuleerimiseks vajavad kogu aega. Näiteks wavelets. Millised on sellised meetodid ning kuidas oleks sellist funktsionaalsust võimalik implementeerida andmebaasimootoris?

Vaata artiklit: Approximate Computation of Multidimensional Aggregates of Sparse Data Using Wavelets

Valitud: Anton, ...

Active Data Warehouses

Töös tehakse ülevaade sellest, mida aktiivsed andmelaod ennast kujutavad ja võib olla ka proovitakse pakkuda lahendust mingile konkreetsele ADW probleemile.

Viited:

Valitud: Aleksei, Ksenia

M-OLAP data structure

Mitmemõõtmeliste andmete kiireks pärimiseks (OLAP) on ajalooliselt kasutusel väga mäluintensiivsed andmestruktuurid. Millised on need andmestruktuurid klassikalise OLAP (M-OLAP) ja hübriid-OLAP tarbeks (H-OLAP)? Proovida realiseerida mõni nendest.

Grid warehousing

Laadimistööd (ETL skriptid) osutuvad tihtipeale oluliseks pudelikaelaks andmelao funktsioneerimisel. Kuidas oleks võimalik tööde hajutamisega situatsiooni leevendada? Vaata artikleid:

Muud uurimisteemad

edit