---
tags: dh2022
---
# Sõnumid Kristiinaga
Tere!
Vahepeal on olnud eetrivaikust, vabandust semestri algusega on tööd olnud.
Teemad on
1) Blogipostituste viimistlemine ja lõppkujule viimine.
- Ma mõtlesin järgi ja tegelikult oleks vaja blogipostitused panna ühtsesse formaati. Ma arvan, et seda võiks teha markdown formaadis - nagu see hackmd.io - pildid eraldi failidena ja siis lingime teksti seest.
- Niisamuti on andmetega - tegelt tuleks ühte kohta kokku panna, kus on usaldusväärne asukoht. Teeme selle siia: https://osf.io/hbfmy/ (ma struktureerin seda veel veidi) ja failid võiks koondada umbes sellisesse formaati. https://osf.io/nrfv6/ Koondage failid (andmed+kood+postitus) kokku, me aitame vormistada. Küsige kohe kui tekib küsimusi!
- Blogipostitused lähevad sinnasamasse - iga postitus on üks "Component" siis saab iga postitus sellega mingis seisundis fikseeritud ja doi külge. Põhimõtteliselt on võimalik ka uuendada, lihtsalt tekib siis uus versioon. Postitus saab külge ka viite seal nii et kõigil on sarnane viide.
- Tahaks repositooriumisse koondada nii koodi, postitused kui ka andmed - selles ulatuses kui see praktiline ja lubatud on. Terviktekstide avaldamine on ok kui need on avalikuks kasutamiseks, konkordantside fail on ok ilmselt ka suletud materjalide põhjal. Toortekstide failide puhul võib mõelda palju neid kaasata, kindlasti võiks aga nö "derived data" ehk igasugu vahetabelid ja loendid kaasata nii palju kui see aitab reprodutseerida tööd.
Siin gruppidel eri seis:
- **Keele** grupil on praegu lihtsalt kood, mis töötab serveri peal. See võiks olla ok, aga need andmed peagi uuenevad seal ja siis saab juba sama koodiga teised tulemused. Oleks tarvis alla laadida ka andmefailid sealt.
- **Keskkonna** grupil on palju häid tabelfaile juba githubis kaasas - need saaks üle kanda. Aga saan aru, et te päris kõike online-i ei taha panna kohe - sel juhul võib piirduda mõne edasise töötlussammuga.
- **Välis-Eesti** grupil ma ei leidnud koodi praegu üles - põhimõtteliselt oleks vaja faile samas formaadis.
- Kõigil tuleks pildid, mida blogipostituses kasutatakse, salvestada eraldi failidena, see töötab paremini kui kopeerimine kui eri kohtades vaja avaldada.
- Keskkonna grupil oli jutt, et on tahtmine kolmandat blogipostitust arendada. Kuidas sellega läinud on?
2) Me tahaks teilt tagasisidet selle kohta, kuidas töö käik on läinud. Selleks oleme teinud küsimustiku siin https://forms.gle/Z7Pi6jWpA2jB9jU18, mida palume teid täita. Et see on oluline projekti osa, siis loodame et saate võtta aega rahulikult läbi mõelda ja vastata. Väga oodatud seal juures on kommentaarid, mille kohta me ei taibanud küsida - mis mõtted teil endal on olnud. Sellest valmivad mõned soovitused ja kokkuvõtted, mille puhul on võimalik et meil on täpsustavaid küsimusi. Me ühtegi nime selles kokkuvõttes ei kasuta, küll aga kasutaks teie vastuseid, kui need mõnda punkti hästi iseloomustavad.
3) Palun andke teada, kes lähikuudel veel on valmis midagi tegema. Ja kui on juba teada, mis siis mis plaan on või öelda et ootate meilt ülesandeid.
- Huviliste puhul vormistame stipendiumid siis kiiremas korras ära.
4) Lubasime tööülesandeid mida saab teha Kristiina ja minu juhtimisel. Minu pakkumisega läheb veel aega. Kristiina ettepanek on siin.
Annoteerimine.
Nagu teada, siis aja jooksul on kasvanud elektrooniliste tekstide hulk, mis ühest küljest on muutnud info kättesaadavamaks, kuid teisalt on tekitanud olukorra, kus pole täpselt teada, mis tüüpi keelt need tekstikogud endas sisaldavad. Elektroonilisi tekstikogusid pole süstemaatiliselt uuritud, sest selleks puuduvad vajalikud vahendid ja teoreetiline põhi. Probleem on ka selles, et suurenenud on ka tekstide variatiivsus ehk kirjalike klassikaliste tekstide kõrvale on tekkinud kasutaja loodud sisu. Registrid/žanrid on pidevas muutumises, seega olemasolevad taksonoomiad ei suuda ajaga kaasas käia. Minu doktoritöös ma tegelengi sellega, et luua teatud lüli tekstide ja nö registrite/žanrite vahele. Minu eesmärk on pakkuda välja universaalne mudel, mis otseselt ei sõltuks žanrilisest kategoriseerimisest ega defineerimisest, vaid annaks raamistiku tekstide liigitamiseks keeleliste tunnuste abil kirjeldatavate omaduste ehk dimensioonide kaudu.
Selle annoteerimise ülesanne oleks siis märgendada mingi ports tekste (kas võtta erinevad korpused või korpusesiseselt) nende samade eelpool dimensioonide alusel (näiteid dimensioonidest: abstraktsus, afektiivsus, formaalsus jne). Tekstide koguse ja dimensioonide arvu osas peaksime aru ja otsustaksime koos. Annoteerimise väljund aitaks lähemalt tuvastada dimensioone ennustatavad tunnused ja seejärel rakendada neid teadmisi suvalise seni nägemata teksti dimensioonide kaudu automaatse klassifitseerimise.
Tööplaan:
1. korpuste kaardistamine: teha kiire nimekiri potentsiaalsetest korpustest (kriteerium: mida uued tekstid, seda parem).
2. leppida kokku suurusjärgud: kui palju tekste, mis dimensioonide alusel (kirjeldused jms tagan mina).
3. hakata tööle
4. kui annoteerimine läheb kiirelt, siis saaks teha (või vähemalt alustada) mingisuguse korpuse žanrilist või registrilist juhutmianalüüsi. Juhtumianalüüsi nurga valimise osas on palju variante (see sõltub korpustest), aga kindlasti leiaks midagi sellist, mis oleks kõigile huvitav lugeda (nt et ajakirjanduses teatud teemadest kirjutamine on rohkem abstraktne/kirjutaja proovib end distantseerida, aga samas jällegi teine temaatika on rohkem emotsiooni täis jne).
## Küsimused
Palume vastata ausalt - ei solvu ja ei mõista hukka. Oleks hea teada, mis päriselt töötas, mida oleks päriselt vaja ja kuidas päriselt võimalusi tulevikus parandada ja ehk mida võiks selleks käivitada. On ok küsimusi vahele jätta ja vastata, mille juures mõtteid on - aga loodame et saate aega veidi järele mõelda ja koondatud mõtteid meiega jagada. Tulemusest õpime ise ja koostame väikse tagasiside raamatukogule ja sellest kuidas andmete põhjal gruppides juhtumiuuringuid teha.
### Projekt ise
- Mis on sinu esmamõtted projektist?
### Grupitöödest
- Kuidas sobis grupitööde ülesehitus? Kas gruppide moodustamine, iganädalane tegutsemine ja etteseatud plaan sobis? Kuidas sujus tööprotsess oma rühmaga?
- Kas õppisid ise midagi grupitööde ülesseadmise kohta ja teeksid midagi teistmoodi?
- Mis tagasilööke või probleeme esines?
- Kas said projektis kaasa tegemisest kaasa endale kasulikke teadmisi? Milliseid?
- Mida saaks edaspidi sarnastes ettevõtmistes parandada - kui võtta ette teha korraga mõned juhtumiuuringud? Mis põhimõtetest lähtuks kui ise midagi sarnast korraldaks?
### Tekstikogu ja andmed
- Kui lihtne oli ligipääs tekstidele? Mis töötas hästi, mida tuleks parandada? Mis võimalusi, mida praegu ei eksisteeri sooviks näha tulevikus?
- Kui kerge oli saada ülevaadet tekstikogude sisust? St ülevaade metainfost, sellest milliste materjalidega saab töötada? Mis info oli vajalik, kas see oli kättesaadav? Kas olukord paranes projekti jooksul?
### Tarkvara ja tööriistad
- Kas sulle sobisid tööriistad, mis olid antud andmetele ligipääsemiseks? (see R-i pakett) Kas parandaksid seal midagi?
- Kas sulle sobisid tööriistad, millega sai töötada edasi? Tegelikult suhteliselt piiramatu - enamasti siis Python ja R nii palju kui oskusi oli. Kas oleks tarvis olnud rohkem abi või teisi juhtumiuuringuid, millest õppida? Mida oleks tarvis selleks et tulevikus saaks iseseisvalt teha sarnaseid uuringuid?
### Juhtumiuuringu ülesseadmine
- Kui kerge oli mõelda välja juhtumiuuringu teemasid? Kas mõtlesite alguses mitmel teemale ja siis valisite ühe või asusite kohe tööle? Mille alusel valisite teema? (Huvi, käepärasus, enda teadmised jne).
- Kas on mõtteid, mida võiks materjalide abil ka tulevikus uurida? Kas arvate, et võiks seda ka teostada?
- Kas juhtumiuuringud on hea viis proovile panna, mis andmetest võiks kätte saada?
### Tuleviku uuringud
- Olles lõpetanud ühe juhtumiuuringu, milliseid uuringuid tahaksid teha tulevikus? Mida teeksid samamoodi, mida teeksid teisiti?
- Mida võiks järgmiseks teha, et liikuda edasi selles üldises suunas: leida väärtust digikogudest ja võtta nad kasutusele uurimisainesena?
### Üldist
- Vabas vormis kui on veel kommentaare.