Data sources
Dataset 1:
Dataset about life expectancy in different countries in the world. The dataset consists of time series data (interval is in years) in JSON format. Data can be used to analyze how life expectancy has changed in different countries. The dataset is open data. For further analysis, the different inquiries should be concatenated into one dataset to compare healthy life expectancy to total life expectancy.
- Life expectancy at birth (years): https://ghoapi.azureedge.net/api/WHOSIS_000001
- Healthy life expectancy (HALE) at birth (years): https://ghoapi.azureedge.net/api/WHOSIS_000002
- Life expectancy at age 60 (years): https://ghoapi.azureedge.net/api/WHOSIS_000015
- Healthy life expectancy (HALE) at age 60 (years): https://ghoapi.azureedge.net/api/WHOSIS_000007
Dataset 2:
Valisin andmestikuks www.space-track.org edastatavad andmed. Varasem kokkupuude antud teemaga puudus,tundus huvitav. Veebilehelt on võimalik saada täielik ülevaade enamuse kosmoses leiduvate tehislike objektide kohta.
- Andmed on TLE(Two-line Element Set)formaadis. Sama formaat on kasutuses juba 1970 aastatest. Algselt kasutatigi kahte perfokaarti andmete salvestamiseks. TLE andmed kirjeldavad objekti asukohta kindlal kellaajal keerulises orbitaalses süsteemis(näide ESTCUBE 1 kohta):
0 ESTCUBE 1 1 39161U 13021C 23083.98475807 .00005138 00000-0 78979-3 0 9991 2 39161 97.8738 158.6365 0008909 235.0829 124.9567 14.73920688530777
- Kõikide objektide andmed salvestatakse kogu elutsükli vältel, paljud objektid on märgitud DEB(debris) prügiks. Objekti identifitseerimine toimub NORAD_ID(39161U) järgi, mis võimaldab erinevatest allikatest pärit andmeid omavahel siduda.
- Andmeid kogutakse ja tehakse avalikuks U.S.A valitsuse kosmosejälgimise programmi raames. Kolmandatele osapooltele andmete edastamine nõuab eraldi kokkulepet.
- Andmed uuenevad pidevalt ja on kättesaadavad peale kasutajaks registreerimist veebilehelt API abil. Teatud piirangud on päringute sagedusele. API kirjeldus on põhjalik ja lisaks TLE- le on võimalik valida ka XML, json, csv ja html formaat. Näidis API päring kõikide objektide kohta xml formaadis: https://www.space-track.org/basicspacedata/query/class/tle_latest/ORDINAL/1/EPOCH/%3Enow-30/orderby/NORAD_CAT_ID/format/xml
- Pythonis on space-track API kasutamiseks spetsiaalne teek: spacetrack.
Objekti TLE formaadist on võimalik asukoht konverteerida latitude ja longitude formaati, kasutatakse ephem teeki.
Dataset 3:
Maailmapanga avaandmed aadressidel: https://data.worldbank.org/country Majandus-, heaolu-, haridusandmete jt grupeerimine riikidekaupa, lisatud siia Eesti andmed
- Andmed on tabuleeritud, ja numbrilise iseloomuga. Antud aegreana viimase poolsajandi kohta
- Majandus-, heaolu-, haridusnäitajad; mõeldud riikide omavaheliseks võrldemiseks ja analüüside tegemiseks
- Andmed uuendatakse kord aastas, 2022 kohta veel pole
- Litsents: Creative Commons Attribution 4.0 (CC-BY 4.0) https://datacatalog.worldbank.org/public-licenses
- Andmete kvaliteedi osas küsimusi ei teki. Andmed võimaldavad võrdlusi teha. Mingi kindla indikaatori alusel saab ka riike võrrelda: https://data.worldbank.org/indicator. Andmete juures on korralik ka meta-info
- API on olemas: https://documents.worldbank.org/en/publication/documents-reports/api Otse saab ka laadida: CSV, XML või Excel
- Eetilisuse ja privaatsuse probleeme ei ole
- Mitte iga riigi/aasta/indikaatori kohta pole andmeid, muid probleeme ei ole
Dataset 4:
https://avaandmed.eesti.ee/datasets/inimkannatanutega-liiklusonnetuste-andmed
Projekti aluseks on andmebaas, mis sisaldab teavet liiklusõnnetuste kohta Eestis. Inimkannatanutega liiklusõnnetuste andmete kogumisega tegeleb Politsei- ja Piirivalveamet. Olemas andmed aastate 2011-2022 kohta failis Liiklus6nnetused_2011_2022.csv
. Andmetele kuni aasta 2021 saab ligi API abil. Andmed on eesti keeles ja viimati uuendatud 09.02.2023 (uuendatakse kord aastas)
Andmete esimene ülevaatlus näitas, et on palju dubleerivaid muutujaid (täielik aadress kui üks muutuja aga ka aadress, mis on jagatud mitmeks muutujaks, palju viise, kuidas kirjeldada ilmastiku- või teeolusid, teeelemente jne erinevates veergudes). Lisaks eelnevale on andmete hulgas ka asukoha koordinaadid, sõiduki tüp, õnnetuse liik, tee tüüp, asukoha infot, juhi tüüp, osalejate tüübid jne. Väga palju infot, millest peaks valima mida kasutada. Üldiselt on andmete kvaliteet hea - ei ole palju puuduvaid andmeid ning veerud on enamasti numbrilised või kategoorilised.
Perspektiiv ühendada liiklusloenduse andmetega ja uurida kas liiklustihedusel ja õnnetuste arvul on seoseid. https://avaandmed.eesti.ee/datasets/liiklusloenduse-andmed
Dataset 5:
Sleep Efficiency Dataset
- Type of data (e.g., tabular, time series, geospatial) and data types (e.g., numerical, categorical, text)
All the data is tabular and has columns:
ID (numerical) Age (numerical) Gender (categorical) Bedtime (date-time) Wakeup time (date-time) Sleep duration (numerical) Sleep efficiency (numerical) REM sleep percentage (numerical) Deep sleep percentage (numerical) Light sleep percentage (numerical) Awakenings (numerical) Caffeine consumption (numerical) Alcohol consumption (numerical) Smoking status (categorical) Excercise frequency (numerical).
- Purpose of the data and its potential use in a group project
The purpose of this dataset is to study the impact of lifestyle factors like caffeine intake, alcohol intake, smoking and exercise on sleep patterns and quality. The data is of great value and has the potential to be used as a group project.
- Update frequency and historical data availability
Data is fixed and not updated.
- Data ownership, licensing, and attribution requirements
The dataset provided was collected as part of a study conducted in the UK by a research team from The University of Oxfordshire.
- Licence: Data files © Original Authors
- Data size, scalability, and quality considerations
The data consist of 452 rows and has 15 columns, and is apparently not scalable. Overall, the data quality seems good, contains a few missing values.
- Accessibility (e.g., direct download, API) and any API usage information
Direct download from Kaggle.
- Privacy, ethical concerns, and necessary steps to address them
There are no privacy or ethical concerns about the dataset.
- Preprocessing and cleaning tasks required before analysis
Missing values should be set as NULL or filled with calculated approximations. Data should be scrutinized for abnormalities (i.e. extreme values), which should be left out of the analysis.
Dataset 6:
Andmed olen saanud: avaandmed.eesti.ee lehelt Valisin Töötukassa andmed: https://avaandmed.eesti.ee/datasets/koondamised Autor: Eesti Töötukassa Kirjeldus: Koondamisteadete (kollektiivsed koondamised), koondamishüvitiste ja koondatuna registreeritud töötute statistika Märksõnad: tööturg, koondamine Uuenemissagedus: Igal kuul Lisatud: 10:38 29.12.2022 Viimati muudetud: 10:41 10.03.2023
Sel lehelt saab alla laadida erinevaid koondamisega seotud andmebaase. Saab valida töövaldkonna, aasta kohta registreeritud töötute arvu, et näha, kuidas see muutub. Siis töösuhte lõpetamise põhjus, registreerutud töötute arv maakondade kaupa. Samuti millistes valdkondades üldse koondamishüvitist maksti.
Dataset 7:
https://www.tervisekassa.ee/muudud-ravimid-diagnoosi-ja-arsti-eriala-loikes
- It Seems to be tabular data; when downloaded, there is only one sheet.
- Possibility to conduct different analysis procedures on data about purchased medications in total or by the specialisation of the doctor who prescribed the medication
- The data is from 2021 onwards (today is the 28th of March, and the last update was on the 26th of March, renewed every week).
- Licensing: Have to refer to Creative Commons Author
- Size: there are over 24 million prescriptions present, the quality of data is not rated
- Data can be downloaded directly
- No personal data is included
- Depending on the question asked, some steps might need to be taken (eliminate rows with no active ingredient, for example).
(Ask excel sheet from the lector or redownload the data)
Dataset 8:
Covid-19 vastu vaktsineerimine (digilugu.ee). Antud avaandmete avaldamise keskkonda haldab Tervise ja Heaolu Infosüsteemide keskus ning andmeid saadakse tervise infosüsteemist. Andmestikud sisaldavad infot Covid-19 vastu vaktsineerimise kohta, mis on oluline info, et planeerida vaktsiinivarusid, analüüsida vaktsineerimise andmeid haigestumiste, testimiste andmetega jpm. Tegemist on Eesti andmetega, kirjeldatud on metoodikat ning ka seda, kui tihti andmeid uuendatakse (iga päev fikseeritakse viimase 24 tunni seis kõige värskemate andmete põhjal). Samuti on suureks plussiks see, et andmestikud on nii csv kui ja JSON formaadis. Ülalmainitud lingil on mitu andmestikku, mille puhul on võimalus kasutada ainult ühte, või neid kombineerida. Samuti on võimalus kombineerida ka SARS-CoV-2 testimise ja Covid-19 haiglaravi andmestikega. Huvitavate visuaalide saamiseks on võimalik siduda andmeid ka geograafiliste andmetega (andmeid on võimalik saada erinevatest kohtadest, nt GeoPortaal Maa-ametis, Natural Earth, Open Street Maps jt).
Andmete uuendamise kohta on lisatud järgnev info: Covid-19 vaktsineerimise agregeeritud andmestikud väljastatakse igapäevaselt terviseteenuse osutajate poolt tervise infosüsteemi saadetud andmete põhjal, viimase 24 tunni kohta seis jooksval aegreal. Statistika kuupäev lähtub vaktsineerimise andmete tervise infosüsteemi esmasest laekumise ajast ning mitte vaktsineerimise kuupäevast. Sõltuvalt terviseteenuse osutajate dokumenteerimisest ja andmete saatmisest võib esineda ligi 1 päevane viide andmete laekumisel. Terviseteenuse osutajatel on õigus ja kohustus vigade tuvastamisel sisse viia parandusi, mis võivad mõjutada tagasiulatuvat statistikat. Andmeid väljastatakse igapäevaselt viimase teadaoleva seisu pealt, tervise infosüsteemi andmestikelt.
Dataset 9:
https://avaandmed.eesti.ee/datasets/maismaasoidukite-tehnoulevaatused-eestis
- andmed on esitatud miksitult, st on nii numbrilisi kui ka tekstandmeid
- saab kasutada analüüsiks, mis hõlmab meie Eesti avalikel teedel liikuvate sõidukite erinevaid aspekte (sõiduki vanus, mark, tüüp, ülevaataja, piirkond jne)
- igal kuul toimub uuendamine ja saadaolev vahemik on 01.01.2011 kuni 03.2023
- andmete omanik on Eesti Transpordiamet ja tegemist on avaandmetega vabalt kasutamiseks kõigile
- andmete suurus varieerub perioodist sõltuvalt vahemikus 45 - 75 MB vahel üks aastane periood
- API lahend on olemas ja saab ka ilma selleta csv formaadis neid alla laadida
- tegemist ei ole isikustatud andmetega, kuid nende puhul on vaja lähtuda ikkagi andmete kogumise ja säilitamise ning töötlemise põhimõtetest vastavalt kehtivas seaduses sätestatult
- algandmed tuleb tõenäoliselt korrastada peale ekstraktimist (nt andmetele õiged tüübid määrata, kuupäevad eristada jne)
Dataset 10:
You'll need to ask the lector for the data. It seems data about car registrations in Estonia with various attributes
Dataset 11:
Ühistranspordiregistri avaandmed vastavalt Google standardile, zip fail, milles on hulk txt faile Sisuliselt busside ja rongide sõiduplaanid, mis on võimalik välja filtreerida päeva ja peatuse täpsusega. Sisaldab täpseid andmeid ka peatuste ja liinide trajektooride kohta.
Dataset 12:
Spordiregister- Harrastajate arv 2022 Spordialade kaupa on välja toodud spordialade harrastajad 2022. aastal ning esitatud nende üldarv, jaotus meeste ja naise ning täiskasvanute ja noorte lõikes. Jooksvaid andmeid on võimalik vaadata aadressilt: https://www.spordiregister.ee/et/statistika?module=har&submit=query&aasta=2022&sorteeri=0¶m=org&maakond_id=&kov_id= Andmeid uuendatakse kord aastas. Andmed on tabelikujul: numbrilised ja tekstilised. Pärit Eesti spordiregistri lehelt ning võimalik alla laadida exceli failina. Andmestik koosneb 10st veerust ja umbes 100st reast.
Dataset 13:
1. Maismaasõidukite tehnoülevaatused Eestis. https://avaandmed.eesti.ee/datasets/maismaasoidukite-tehnoulevaatused-eestis Andmed on olemas csv failina tabeli kujul. JSON failis on olemas ka metaandmed, mis annavad riketele tähendused. Andmed on olemas aastate 2010 – 2023 kohta, andmeid uuendatakse iga kuu. Andmed on pärit transpordiamet.ee-st ja kättesaadavad ka API kaudu. Muud metaandmed on kirjeldatud üleval oleval lingil. Andmestiku saab kasutada automarkide ja nende valmistamisaastate analüüsiks, et hinnata nende tehnilist olukorda enne kasutatud auto soetamist. Samuti oleks huvitav ennustada enda auto lagunema hakkamist. Veel üks mõte oleks leida asukohad, kust autod „kergemini“ ülevaatuselt läbi saavad. 2. Riigikaitseliste väljaõppealade andmekogu https://avaandmed.eesti.ee/datasets/riigikaitseliste-valjaoppealade-andmekogu-(brontos)-avaandmed Andmed on json failivormingus nii tabulaarsel kujul (harjutusväljade graafikud), kui geoandmetena (harjutusväljade asukohad). Andmeid uuendatakse kord kuus. Graafiku tabelist saab vaadata, kunas ja mis harjutused toimunud on. Andmetest saaks uurida, kuidas on nõudlus harjutusväljadele aja jooksul muutunud, milliseid harjutusväljasid kasutatakse vähem. Samuti oleks üks mõtte teha dashboard,kust on näha, kas harjutusväljadel toimub midagi või mitte (et teaks aega planeerida, kunas seenele minna)
Dataset 14:
Goodreads raamatute andmestik Goodreadsi andmebaas sisaldab teavet enam kui 135 miljoni raamatu kohta. Iga raamatukirje sisaldab selliseid andmeid nagu pealkiri, autor, avaldamise kuupäev, žanr, lehekülgede arv, hinnangud ja arvustused.
Type of data (e.g., tabular, time series, geospatial) and data types (e.g., numerical, categorical, text)
Tabelandmed. Andmebaas sisaldab tabelandmeid raamatukirjete, autorilehtede ja kasutajaprofiilide kujul. Iga raamatukirje sisaldab sellist teavet nagu pealkiri, autor, avaldamise kuupäev, žanr, lehekülgede arv, hinnangud ja arvustused ning iga autori leht sisaldab selliseid andmeid nagu autori elulugu, bibliograafia ja nende raamatute hinnangud. Tekstiandmed. Andmebaas sisaldab tekstiandmeid raamatute kokkuvõtete, arvustuste ja kasutajate loodud sisu (nt kommentaarid ja foorumipostitused) kujul. Need tekstiandmed on struktureerimata ja neid saab analüüsida loomuliku keele töötlemise tehnikate abil. Kategoorilised andmed. Aandmebaas sisaldab kategoorilisi andmeid raamatužanrite, autorite rahvuste ja kasutajate demograafiliste andmete (nt vanus ja sugu) kujul. Arvulised andmed. Andmebaas sisaldab arvulisi andmeid raamatute hinnangute kujul, mis on skaalal 1–5 ja kasutajate loodud andmeid, nagu loetud raamatute arv ja kirjutatud arvustuste arv.
Purpose of the data and its potential use in a group project
Grupiprojektis saab Goodreadsi andmebaasi kasutada mistahes analüüside tegemiseks ning ülevaate saamiseks raamatuturust ja lugejate eelistustest. Näiteks teemadel:
- Raamatusoovitused. Andmeid saab analüüsida, et pakkuda kasutajatele nende lugemisajaloo, eelistuste ja hinnangute põhjal isikupärastatud raamatusoovitusi.
- Trendide analüüs. Andmeid saab kasutada populaarsete žanrite, autorite ja raamatusarjade ning kirjastustööstuse esilekerkivate suundumuste tuvastamiseks.
- Meelestatuse analüüs. Andmeid saab kasutada raamatuarvustuste ja kasutajate loodud sisu meelestatuse analüüsimiseks, andes ülevaate lugejate suhtumisest konkreetsetesse raamatutesse ja autoritesse.
- Turu-uuring. Andmeid saab kasutada tarbijate käitumise ja eelistuste analüüsimiseks raamatuturul, samuti konkreetsete raamatute ja autorite potentsiaalsete sihtrühmade tuvastamiseks.
Update frequency and historical data availability
Goodreadsi andmebaasi uuendatakse regulaarselt, et lisada uusi raamatuid ja kasutajate loodud sisu, nagu arvustused ja hinnangud. Kuid konkreetset värskendussagedust Goodreads avalikult ei avalda. Ajalooliste andmete kättesaadavuse osas sisaldab Goodreadsi andmebaas raamatukirjeid 20. sajandi algusest, aga ka kasutajate loodud sisu, nagu ülevaated ja hinnangud, mis pärinevad platvormi käivitamisest 2007. aastal. Siiski on oluline panna tähele, et ajalooliste andmete kättesaadavus ja täielikkus võib erineda olenevalt erinevatest teguritest, näiteks platvormi andmete kogumise ja salvestamise tavade muutumisest aja jooksul. Üldiselt, kuigi konkreetne uuenduste sagedus ja ajalooliste andmete kättesaadavus võivad varieeruda, pakub Goodreadsi andmebaas terviklikku andmete allikat raamatute, autorite ja lugejate eelistuste kohta, mida saab kasutada erinevatel uurimis- ja analüüsieesmärkidel.
Data ownership, licensing, and attribution requirements
Goodreadsi andmebaasis olevate andmete omandiõigus kuulub Goodreadsile, mille omanik on Amazon ning andmete kasutamisele kehtivad platvormi teenusetingimused ja API teenusetingimused. Kasutajad võivad andmetele juurde pääseda ja neid kasutada mitteärilistel uurimis- ja analüüsieesmärkidel, kuid andmete igasugune äriline kasutamine nõuab Goodreadsi kirjalikku luba. Lisaks peavad kasutajad omistama Goodreadsi andmete allikaks mis tahes avaldatud või avalikus teoses, mis andmeid kasutab.
Data size, scalability, and quality considerations
Goodreadsi andmebaas on suur ja skaleeritav, kuid andmete kvaliteet võib olenevalt erinevatest teguritest erineda. Andmete kvaliteedi tagamiseks on oluline enne mis tahes analüüsi tegemist teha andmete puhastamine, teisendamine ja valideerimine.
Accessibility (e.g., direct download, API) and any API usage information
Goodreadsi andmebaasi pääseb ligi Goodreadsi API kaudu, mis tagab juurdepääsu andmetele. Kasutajad peavad registreeruma API võtme saamiseks ning järgima Goodreadsi API teenusetingimusi ja tariifipiiranguid. Andmete kättesaadavus ja täielikkus API kaudu võib sõltuda erinevatest teguritest ning kasutajad võivad suurte andmemahtude toomiseks esitada mitu taotlust.
Privacy, ethical concerns, and necessary steps to address them
Goodreadsi andmebaasi andmete kasutamine tõstatab mitmeid privaatsus- ja eetilisi probleeme, eriti seoses isikuandmete kogumise ja kasutamisega. Nende probleemide lahendamiseks on oluline tagada vastavus kohaldatavatele seadustele ja määrustele (näiteks isikuandmete kaitse üldmäärus GDPR), rakendada asjakohaseid andmeturbemeetmeid, muuta andmed anonüümseks või deidentifitseerituks, käsitleda eelarvamuste ja diskrimineerimisega seotud probleeme ning kaaluda võimalikku mõju kasutajatele ja teistele sidusrühmadele.
Preprocessing and cleaning tasks required before analysis
Enne mis tahes analüüsi läbiviimist Goodreadsi andmebaasis on andmete täpsuse ja usaldusväärsuse tagamiseks oluline teha eeltöötlus- ja puhastustoimingud. Näiteks:
- Andmete puhastamine – see hõlmab andmekogus vigade, ebakõlade ja puuduvate andmete tuvastamist ja parandamist. Näiteks duplikaatide eemaldamine, puuduvate väärtuste täitmine ja vormindusvigade parandamine.
- Andmete normaliseerimine – see hõlmab andmete teisendamist standardvormingusse, et tagada kogu andmekogumi järjepidevus. Näiteks kõigi raamatute pealkirjade teisendamine standardvormingusse või kõigi kuupäevaväljade teisendamine standardsesse kuupäevavormingusse.
- Andmete teisendamine – see hõlmab andmete muutmist analüüsi jaoks kasutatavamasse vormingusse. Näiteks kategooriliste andmete teisendamine arvandmeteks või andmete koondamine erinevateks ajavahemikeks aegridade analüüsiks.
- Andmete filtreerimine – see hõlmab ebaoluliste või üleliigsete andmete eemaldamist andmekogumist. Näiteks mitteingliskeelsete arvustuste eemaldamine või minimaalse pikkusega arvustuste eemaldamine.
- Andmete valim – see hõlmab analüüsi jaoks andmestiku representatiivse alamhulga valimist. Näiteks valides analüüsimiseks juhusliku arvustuste valimi, selle asemel et analüüsida kogu andmestikku.
- Andmete integreerimine – see hõlmab erinevatest allikatest pärit andmete kombineerimist ühtse andmestiku loomiseks. Näiteks raamatuteabe kombineerimine arvustuste andmetega, et luua andmestik, mis sisaldab nii raamatute metaandmeid kui ka kasutaja loodud sisu.
Oluline on märkida, et konkreetsed nõutavad eeltöötlus- ja puhastustööd võivad olenevalt uurimisküsimusest ja analüüsimeetodist erineda.
- Kuidas saada Goodreadsist anmestikku kätte? Goodreads pakub erinevaid võimalusi oma andmete eksportimiseks, sealhulgas raamatute, hinnangute ja sõprade nimekirjade eksportimiseks CSV-formaadis.
- Logige sisse oma Goodreadsi kontole.
- Klõpsake üleval paremal asuvas menüüs nuppu "Minu raamatud".
- Valige lehekülje allosas olevast vasakpoolses menüüs "Eksport".
- Valige andmete eksportimiseks soovitud vorming. Valikus on CSV-, Excel- ja HTML-vorming.
- Valige eksportimiseks soovitud andmed, näiteks raamatute, hinnangute või sõprade nimekirjad.
- Klõpsake nuppu "Eksport".
- Valige kaust, kuhu soovite oma eksportitud andmed salvestada. Pärast eksportimist saate oma andmeid avada CSV-faili abil, mida saate avada programmis nagu Microsoft Excel või Google Sheets.