---
tags: AT_DH_2022
---
# Disainiseminar 1 tulemused
Kodutöö eesmärgiks on formuleerida grupitöö tulemused ja ehk täita mõned lüngad kui on.
Kirjutage 2-3 lõiku uurimisprojekti küsimusest ja selle võimalikust teostamisest. 1) Mis küsimus on ja miks see huvitav on? 2) Mis andmeid saaks ja võiks kasutada, mis andmestikke oleks selleks vaja? 3) Kuidas võiks analüüsi läbi viia. 4) Mis probleeme või takistusi võib ette tulla. Tasub hoida suhteliselt lihtne ja üldsõnaline. Oluline on, et on midagi küsimusest, midagi andmetest ja kas ja kuidas seda teha saaks. See on ainult näpuharjutus - võib olla nö negatiivne tulemuse juba ette :) - st nt näe selline küsimus, saime sõnastatud, aga andmeid on võimatu saada ja seega ei saa teha.
Võiks piisata 1.5 kokkusaamisest väljaspool tundi selle koondamiseks, võite ka panustada eri aegadel.
## Kokku kirjutatud plaanid
### Peeter jt
Paar lõiku teksti eesmärgist ja plaanidest.
###
### Annika ja Tambet
Uurimisprojekti raames uurime, kuidas on aja jooksul muutunud Riigikogu täiskogu istungite arutelud. Kas arutelud on läinud pikemaks või lühemaks? Kas need on muutunud formaalsemaks? Kas need on muutunud arusaadavamaks tavainimestele?
Ideaalis vaatame tervet materjali ja kitsamalt riigieelarve arutelusid. Andmeteks kasutame Riigikogu stenogramme alates 1990. aasta ülemnõukogust tänase riigikoguni. Andmed on kättesaadavad riigikogu kodulehel: https://stenogrammid.riigikogu.ee/
Analüüsimiseks kasutame kahte teksti keerukuse hindamise parameetrit: formaalsusindeksit F, millega määratakse teksti kontekstuaalsust ja formaalsust ning loetavusindeksit LIX, millega hinnatakse teksti keerukust ja selgust. Sellele lisaks mõõdame tekstikorpuste kogupikkust sõnades ja lausetes aastate lõikes.
Põhiline ettenähtav probleem seisneb tekstikorpuste ligipääsetavuses. Stenogramme saab praeguse veebilahenduse toel tõmmata alla ükshaaval käsitsi. See on ilmselt mõeldav eelarvearutelude alla laadimiseks, kuid kogu korpuse tõmbamiseks tuleks kasutada tehnilist või sotsiaalset abivahendit.
### Gregor, Karel, Lisanna
Uurimisprojekti raames saaksime uurida Eesti Kultuurkapitali jagatavat rahastust. Täpsemalt saaksime süveneda sellese, et millised teemad ja huvigrupid saavad rahastust ning millised mitte. Teema on huvitav, kuna tulemusena saaksime teadmise, kuidas edukat kultuurialast projekti esitada, milliseid nippe kasutada ning kas ja kuidas on rahastuse jagamine ajas muutunud.
Kultuurkapitali andmed on avalikud ja kättesaadavad otse kulka.ee lehelt. https://www.kulka.ee/avalik-teave, sealt “Esitatud taotlused” ja “Eraldused”. Lehte uurides leiab viited sisemisele API-le, mis aitab andmeid mehhaanilisemalt välja küsida: näiteks https://api.kulka.ee/api/v1/contracts?&jsonp=jsonp_10 ja https://api.kulka.ee/api/v1/applications?&jsonp=jsonp_5.

(viimasel huvitav näiteks, et taodeldud on 500€, aga antud on 250€).
Rakendada võiks clustering algortime kolmes faasis. Esmalt proovida kõigi andmete peal (need, kes said ja kes ei saanud toetust) ning vaadata, kas tekib mõni suurem klaster, kus domineerib toetuse saamine. Kui leidub selline klaster, saame uurida mis ühised muutujad seal on ja millised on nendest on kõige dominantsemad. Teine variant on rakendada sama ainult nende peal kes said toetust, et näha millised muutujad on kõige levinumad. Kolmas on sarnane teisele variandile, kuid nende peal, kes ei saanud toetust.
Eelnev käis kvantitatiivsete muutujate kohta, küll aga saame analüüsida ka kvalitatiivset muutujat, milleks on toetuse saamise põhjendus. Sealt saaksime uurida, millised terminid on kõige populaarsemad toetuse saajate hulgas ning mil moel on antud terminid mittesaajate osas vähem populaarsemad. Samamoodi, saame vastupidiselt leida milliseid termineid ei tohiks kasutada. Lisaks kasutades tf-idf’i klastrite peal saame leida spetsiifilisemaid sõnu, mida kasutada. Näiteks kui loome klastri tegevusvaldkondade alusel saame näha millised terminid on mingis valdkonnas kõige suurema kaaluga.
Taotluse sisu pole avalik, seetõttu võib mingi osa olulist konteksti puudu jääda. Kardame, et pelgalt märksõnade rahastamise analüüsi võib keeruliseks muuta fakt, et jagatava rahapaja suurus võib mängida olulisemat rolli kui teema ahvatlevus. Samuti on võimalus, et taotlus rahastatakse vaid osalises mahus – on oht, et eriti suurte taotluste puhul võib olla ekspertgrupil mentaliteet, et “kas kõik või mitte midagi”; sest näiteks suurt kontserti poole summaga ju ei korralda, aga väikese peo võib ehk ka poole rahaga ära teha (st pole ühtset regelementi, mille alusel sellised otsused tehakse). Ja on ka oht, et ekspertgrupid on piirkonniti ja/või ajaliselt erinevad ning tulemused erinevad ka seetõttu – ekspertgrupi koosseisu sellest andmeallikast kätte ei saa.
### Rasmus ja Marti
Pärast hunnikut hüpoteeside püstitamisi ja arusaamist, et täpse mõõdetava meetriku püstitamine on päris keeruline ülesanne, otsustasime ülesandele läheneda teisest otsast. leidsime huvitavad väljaanded nimega riigikogu toimetised https://rito.riigikogu.ee/.
Seal on kokku 45 väljaannet ca 20 aastase perioodi peale (iga poole aasta tagant ilmub väljaanne).
Sellest lähtuvalt püstitasime erinevaid küsimusi, millele oleks võimalik vastuseid leida. Näiteks uurida, et kuidas on muutunud valdkondade vaheline koostöö - kas on tihenenud või hoopis eraldunud? Seal saaks ajateljel vaadata, et mis on näiteks keskmine artiklis esinev valdkondade arv vms. Siis võib veel uurida, et kuidas on näiteks keelekasutus muutunud - kas on läinud komplekssemaks või hoopis lihtsustunud. Nagu mainisin, siis küsimusi mida nende andmeallikate põhjal püstitata võiks, on palju. Mõtlesime ka võimaluse peale ehitada mingisugune ennustav muded. Selle koha pealt pole aga kindel, et kas andmeid on piisavalt.
Peaks fokuseerima konkreetsemale teemale
Koostöö kontseptsiooni jaoks teooria valik, koostöö kontseptsiooni sõnastamine, indikaatori väljatöötamine on keerulised. Eriti rahvusvahelise võrdluse vaates. Ajas toimuva muutuse jälgimise mõttes on ülesanne lihtsam.
### Egle, Margus
#### Muutused kohalike ajalehtede esiküljeartiklite emotsioonihinnangus ja nende muutuste seos majanduses ning poliitikas toimuvaga.
Projektis uuritakse, kas ja kuidas muutub kohalike lehtede esiküljele valitud lugudes emotsioon, kuidas mõjutavad neid lugusid valimistsüklid ja tõusud-mõõnad majanduses.
Projekti piiritlemiseks valiti allikateks kohalikud ajalehed: Vooremaa, Tartu Postimees, Põhjarannik, Järva Teataja, Lääne Elu, Virumaa Teataja, Põlva Teataja, Pärnu Postimees, Saarte Hääl, Otepää Teataja, Sakala, Võrumaa Teataja, Kose Teataja, Viimsi teataja.
Kohalikud lehed on kohalikule elanikule lähemal ja kajastavad just kohalikku elu-olu. Järgmiseks kitsenduseks sai artikli valik lehes - keskendutakse vaid esiküljele loole ehk toimetaja hinnangul kõige olulisemale teemale antud hetkel. Lisaks leiavad kasutus andmed ja aegread kohalike ja riigikogu valimiste kohta, tööhõive näidud ning makstavad sotsiaaltoetused. Kas artiklite positiivsus/negatiivsus ja meeleolu muutus on seotud ka valimiskampaaniate ja kohalikus koalitsioonis olevate erakondade ning valimisliitudega? Või kajastuvad muutused tööhõives ja abivajajate arvus esiküljelugude meeleolus?
Emotsiooni hindamiseks kasutatakse esimese valikuna eesti-inglise masintõlget (Tartu NLP neurotõlge, Tilde, Google Translate) ning inglise keelel põhinevat emotsioonihinnangut. Võrdluseks ja võimalusels ka EKI emotsioonidetektorit.
Artiklite korjeks digar.ee arhiiv, vajadusel ka päringud raamatukogude ühiskataloogist.
Võimalikest probleemidest ja väljakutsetest:
* tekstikaeve - esimese või tähtsaima artikli automaatne leidmine ei pruugi alati õnnestuda, lehed on erineva ülesehitusega ning digiteeritud materjalid erinevas vormis (tekstiline või skanneering pildina)
* lisamõjurid - näiteks esikülg võib peegeldab eelkõige toimetaja meelsust, toimetajaid võivad tihti vahetuda või roteeruda.
* lehtede avaldamistsüklid erinevad, kas valimi tasakaalustamiseks arvestada vaid iga kuu esimene number; võib ka oletada, et harvema ilmumisega lehtedel on esiküljelugu suurema kaaluga