---
tags: AT_DH_2022
---
# Disainiseminar 2 tulemused
Kodutöö eesmärgiks on formuleerida grupitöö tulemused ja ehk täita mõned lüngad kui on.
Kirjutage 2-3 lõiku uurimisprojekti küsimusest ja selle võimalikust teostamisest. 1) Mis küsimus on ja miks see huvitav on? 2) Mis andmeid saaks ja võiks kasutada, mis andmestikke oleks selleks vaja? 3) Kuidas võiks analüüsi läbi viia. 4) Mis probleeme või takistusi võib ette tulla. Tasub hoida suhteliselt lihtne ja üldsõnaline. Oluline on, et on midagi küsimusest, midagi andmetest ja kas ja kuidas seda teha saaks. See on ainult näpuharjutus - võib olla nö negatiivne tulemuse juba ette :) - st nt näe selline küsimus, saime sõnastatud, aga andmeid on võimatu saada ja seega ei saa teha.
Võiks piisata 1.5 kokkusaamisest väljaspool tundi selle koondamiseks, võite ka panustada eri aegadel.
## Kokku kirjutatud plaanid
### Peeter jt
Paar lõiku teksti eesmärgist ja plaanidest.
###
### Marti, Annika, Karel
Idee on kirjeldada ja analüüsida Eesti ühiskonda või kitsamalt (tehnoloogilist, majanduslikku, kultuurilist, poliitilist) eliiti poliitilise polariseerituse mõttes. Järgmised valimised toimuvad märtsis 2023, valimiskampaaniad ja -võitlus käib juba täie hooga ja inimesed suhtlevad valimistega seoses ülesvõetud teemadel. Üldine uurimisküsimus on kirjeldada ühiskonda sellel mõõtmel, et kuivõrd selgelt on olemas grupid, mis suhtlevad nendel teemadel omavahel rohkem kui nad suhtlevad sellesse gruppi mitte kuuluvate inimestega. Ehk kui suur on poliitiline polariseeritus. Konkreetsed uurimisküsimused võiksid olla näiteks Mitu sellist gruppi on võimalik eristada? Kui teravalt, selgelt erinevad grupid eristuvad teineteisest, kas see eristumine varieerub grupiti? Milline on iga grupi profiil (sotsiaaldemograafiline, poliitilised eelistused, erakondlik identiteet, muud arvamused, hoiakud jne). Metodoloogiline ülesanne on arendada indikaator, mõõdik, mis võimaldab identifitseerida gruppe ja nendevahelise eristumise määra. Andmetena võiks kasutada Twitteri tviite ja retviite, samuti kommentaare. Kommentaaride analüüs kirjeldaks kommenteerija sentimenti.
Eestlaste kontosid Twitterist leiab 78 800. Siin on selges ülekaalus mehed 76,6%-ga, samal ajal naiste kontosid on 23,4%. https://milos.ee/eestlaste-interneti-ja-sotsiaalmeedia-kasutus-aastal-2021/
https://towardsdatascience.com/are-you-democrat-or-republican-let-your-tweets-define-you-4aa4cadf4bea
---
### Egle, Lisanna, Margus
**Klõpsulõksude levik ja kasutus veebimeedias**
*Klõpsulõks - clickbait*
*klõpsulantimine - clickbaiting, veebikasutajate manipuleerimine lingil klõpsama* (https://nova.vabamu.ee/sonastik/)
Meediaväljannete reklaami müügil põhinev ärimudel on tugevalt soosinud klõpsulõksuliste pealkirjadega artiklite tootmist. Uudishimule rõhuvad lünklikud pealkirjad, vihjavad ja viitavad kõmulistele teemadele, tihti vormistatud käsk- ja hüüdlausetena püüavad lugejate tähelepanu ja klikke - pealkirja taga avaneva artikli uudisväärtus ja kvaliteet kipub aga pigem keskpärane olema. Klõpsulõksu projekt uurib, kas ja kuidas on vastavate pealkirjade levik ajas muutunud, kas väljaannetel on lõksude proportsioon läbi avaldatud artiklite sama ja kas ning kuidas see rubriigiti eristub. Kas oleme lõksudega juba niivõrd harjunud ja neid omaks pidama hakanud? Milline on nende levik riigimeedias ning kultuuriajakirjanduses?
Klõpsulõksu tuvastamine näib olevat suurest masinõppe ülesanne - kasutatakse palju kindlaid märksõnu ja lauseehitust. Treeningandmete heaks allikaks on Klikisäästja ( https://www.facebook.com/klikimasin/ ) poolt kogutud pealkirjad. Andmekorje esimeseks sammuks oleks Klikisäästja FB lehelt sisuliselt märgendatud pealkirjade korje, nendest läbi tekstieraldus ning ka väljaande tuvastamine. Teise, lõksuna mitteklassifitseeruva pealkirjade klassi tarvis läheks käiku kureeritud valik ERR, Srip, Edasi, Levila, jm reklaamimüügiga mittetegelevate väljaannete poolt loodud pealkirju. Vektoriseeritud ja märgendatud pealikirju saab kasutada nii närvivõrkude kui masinõppe algoritmide (RandomForest, XGBoost) treenimiseks. Kassifitseerimiseks tuleks juhuvalim igapäevastest uudisvoogudest kui ka meediväljannete arhiividest. Viimase puhul tuleb küll arvestada võimalusega, et nn kiirmeedia alla liigituvad uudisnupud ei pruugi väljaannete arhiividest sisuliste uudiste kõrval samas mahus esindatud olla kui väljaande tänasel esilehel.
Praegusel juhul oleks üheks võimalikuks puuduseks treeningandmete kallutatus, kuna need on artiklid, mis on Klikisäästjale nn silma jäänud. Sarnaselt võivad need olla väljaanded, kus klõpsulõksu osakaal ongi suurem ja seetõttu kajastab Klikisäästja neid ka oma Facebooki lehel.
Vt ka näide klõpsulõksu pealkirjast treeningandmestikus:

Vt ka: https://novaator.err.ee/1148704/enneolematu-klopsuloksud-puuavad-lugejaid-huvilunkadega ;
http://arhiiv.rakenduslingvistika.ee/ajakirjad/index.php/aastaraamat/article/view/ERYa16.03/477
---
### Tambet ja Gregor
1) Mis küsimus on ja miks see huvitav on?
Kas eestikeelsete sõnade põhikomponendi analüüsi (PCA) järgi tehtud klasterdus vastab praegusetele arusaamadele eesti keele leksikast? Kui klastrite vahele tekib auk, siis kas seda oleks võimalik täita uue klastriga, luues mõne uue sõnatüübi nii, et see ei riivaks meie keeletunnetust? Huvitav, sest tahame teada, kas PCA klasterdus annaks vihjeid sõnaloomeks.
2) Mis andmeid saaks ja võiks kasutada, mis andmestikke oleks selleks vaja?
Vaja võimalikult täielikku eesti keele sõnaraamatut. Näiteks ÕS või EKI ühendsõnastik (sonaveeb.ee). Hea oleks, kui oleks näha sõnadele lisaks ka käändumine vmt. Eriti hea oleks, kui kõik sõnad saaks ühe päringuga välja küsida.
3) Kuidas võiks analüüsi läbi viia.
Tekitame sõnade põhjal mingid featuurid, a la:
- Sõna pikkus tähtedes
- Sõna pikkus silpides
- Käändumise tüüp
- Bag-of-words laadne tähesisalduvus
- Bag-of-words laadne silbisisalduvus?
- Täishäälikute ja kaashäälikute vahekord
- "Võõrtähtede" sisalduvus: c, q, w, x, y, f, š, z, ž
- Täpitähtede sisalduvus: õ, ä, ö, ü
- Kas pigem "g, b, d" või "k, p, t"-sisaldav sõna.
Nende põhjal teostame PCA analüüsi. Vaatleme PC1 ja PC2 põhjal tehtud graafikut. Proovime selgitada klastrite tekkepõhjuseid. Ootamatud selgitused toome esile.
Teeme mingi programmi (täisrandom või geneetiline algoritm), mis üritaks saada "täppi" graafikul olevasse tühimikku. Tulemuseks võiks olla mingi hulk näiteid, mis võiksid olla tunnetuslikult eestikeelsed sõnad.
4) Mis probleeme või takistusi võib ette tulla.
Oht: programm väljutab mingi sõna, mis ei ole kuidagimoodi normaalne sõna: "fhitodbdmz". Lahendus: otsida rohkem näiteid/vaadata featuure, mille põhjal see sinna auku langes ja proovida ise mingit sõna leida selle põhjal.
Oht: äkki pole teenust, kust saab lihtsalt küsida välja kõik eestikeelsed sõnad. ÕSist saab äkki mingi PDFi, kust saaks välja lugeda? Võibolla saaks andmebaasi pihta ka otse päringuid teha. Äkki EKI oskab toetada/aidata.
Oht: potentsiaalselt puudulikud lingvistikateadmised. Võib olla vaja palju juurde uurida nt featuuride mõtlemisel või pärast klastrite selgitamisel. Aitaks lingvistiku kaasamine.