---
tags: AT_DH_2022
---
# Grupitöö tulemused: EstNLTK
Püsilink: https://hackmd.io/@OGZFb2mRSA65ybyn4hSfkQ/By8-yiTMj/edit
## 13.10.2022

Pildi jagamiseks paremklõps pildi peal (all paremal nurgas) -> copy image.
Ja CTRL+V (CMD+V) siin tekstikastis. Hackmd laeb faili üles ja siis kuvab lingi markdown formaadis. Joonise järgi saab kirjutada oma nime.

Joonis 1. Näitepilt
## Peeter ja Peeter
Jutt lõik 1. Tekstides aimasime seda põnevat ja läksime otsima. Tegime sellist eeltöötlust.
Jutt lõik 2. Pildil on näha tulemused. Nimelt on Tammsaares soost palju rohkem juttu kui teistel autoritel jne.

Pildi pealkiri
---
## Margus, Arina
Loandasime iskunimesid erinevates uudisterubriikides, on näha, et levinumad nimed võivad esineda mitmel kujul (Meri, Lennart Meri; Putin Vladimir Putin). Lisaks kasutatakse artiklites enamalt jaolt perenimesid (Mõis, Meri, Putin, Pinocheti, ...). Huvitaval kombel on aga Eesti uudiste rubriigi enimkasutatud nimeks sattunud eesnimi. Sulgudes on esinemiste arv.
### 10 enamlevinud nime Eesti uudistes:
Kalle (17)
Mõis (16)
Lennart Meri (15)
Meri (15)
Kangro (13)
Kalmer (13)
Dikajev (11)
Jüri Mõis (11)
Kopli (10)
Mägi (10)
### 10 enamlevinud nime välisuudistes:
Solana (18)
Putin (13)
Vladimir Putin (11)
Pinocheti (10)
Mashadov (10)
Haideri (10)
Jeltsini (10)
Vennamo (9)
Vajpayee (9)
Haider (9)
### Artikleid rubriikides
Rubriigid järjestatuna rubriigis avaldatud artiklite arvu järgi. "Eesti" ja "Uudised" on arvatud kokku ning "Välismaa" ja "Valised" on samuti koondatud ühes rubriigiks. Loendus on tehtud artiklite meta-andmetel, tunnustel *rubriik* ja *title*.

*Joonis: artikleid rubriigis*
Tööleht - https://gist.github.com/marguslt/4e4427b49608b4f275c5c1bfc87fba8b
---
## Gregor ja Rasmus
### TOP autorid
@Rasmus
### Rubriikide maht nädalapäeviti


__Oluline avastus 1: pühapäeviti ajalehte ei käi.__
Üldiselt on huvitav, et Postimehes on rubriikide koguhulk võrdlemisi väike ning nädalapäeviti on nende jaotus võrdlemisi ühtlane (v.a. laupäevaeri Extra, kus igas rubriigis ilmus üks artikkel).
EPL-is seevastu on küll mõned rubriigid, millest igapäevaselt enam-vähem sama palju kirjutatakse:
- Eesti
- Välismaa
- Sport
- Majandus
- Seltskond
- Vormel 1 (ju oli teemaks tol nädalal)
- Kultuur
- Arvamus
- MÖTE
- Arkaadia eri
- Meelelahutus (nädala sees)
Aga on ka täiesti niširubriike, nt:
- "Pluss" (laupäeval)
- "Mootor" (teisipäeval)
- "Kinnisvara ja ehitus" (kolmapäeval)
- "Koolitus" (esmaspäeval).
Mingid rubriigid esinevad küll tihemini, aga ka mitte igapäevaselt:
- "Tallinn" (T, K, N, R)
- "Melu" (T, K, N)
- "Tehnoloogia" (K, N, R)
- "Kirjad" (E, T, K, R)
- Allpool naba (E, K, N)
Selline jaotus tundub iseloomustavat tolleaegset EPLi allüksuste struktuuri, kus ajakirjanikke mingites üldisemates valdkondades oli rohkem ja need, mille kohta kirjutajaid oli vähem (~väiksem lugejahuvi), koguti vähemate päevade peale kokku
### Sõnaliigid autoriti
Välistes uudisteagentuurides (pressiteadetes?) tunduvad olevat erinevad jaotused kui isikutel – ilmselt on sealt edastatud sisu põhimõtteliselt teistsugune (nt rohkem fakte ja vähem arvamusi vmt). Samas ka kõige väiksema nimisõnade osaga on ka "EPL/BNS/Reuters". Huvitav ka "ASTA NIINEMETS" on kasutanud hästi palju lühendeid artiklis, mis rääkis valimisjaoskondade ("jsk nr") lahtiolekuaegadest vmt.
#### Rohkem kui 3 artiklit kirjutanud

#### Kõigi autorite vaates

### Päevaleht vs Postimees top10 autorid
On huvitav näha, et suures enamuses olid tollased Päevalehe uudised teiste infoallikate tõlked/kajastused. Postimehe puhul on lugu väga erinev. Arvatavasti võib teha järelduse, et Päevalehel oli tollal autorite nappus võrreldes Postimehega. Ilmselt polnud siis Päevalehel vabu finantsvahendeid niipalju kui konkurendil.

Gregori tööleht: https://colab.research.google.com/drive/1w3iOQ_4FUnCvjz3PZbLgN5IxUtVg9eB6?usp=sharing
Rasmuse tööleht: https://colab.research.google.com/drive/1-0kxQ3uMsYiHCB_K3K43lRme07zFgU3F
## Karel ja Tambet
Korpuses on kokku 855 artiklit, millest 830-l on metaandmetes märgitud autor. Esmalt tekkis küsimus, kes kui palju kirjutanud on?
Autorite rida metaandmetes on küllaltki ebaühtlase vormistusega (tihti sisaldab autorite lisaandmeid, mis pole alati ühtlased, kohati suurtähed, kohati väiksed jne) ning paistab, et metaandmeid ei saa layerdada, et tuvastada isikunimesid. Seega tuli seda puhastada suuresti käsitsi ning tulemus ei ole päris ideaalne. Tulemusena saime 283 unikaalset autorinime, mis puhuti siiski samale isikule või asutusele kuuluda võivad.
Alloleval graafikul (88 autorit, kelle nimel on vähemalt 3 artiklit) torkab silma, et domineeriv osa artikleid on signeeritud uudisteagentuuri (BNS, Reuters jt) või ajalehe nimega (epl, õl, pm). Viljakate autoritena torkavad silma näiteks Argo Ideon, Tõnu Kees, Merit Kopli, Piret Peensoo ja Teet Kallas.

Edasi võtsime vaatluse alla, kui palju kasutab autor enda tekstides omadussõnu. Vahest näitab see autorite stiili hinnangulisust?
Tulemuseks joonistus ilus S-kurv. Ootasime, et uudisteagentuuride ja ajalehtedega signeeritud tekstid kukuvad allapoole, mis aga ei osutunud tõeks. Mõlemaid leidub graafiku mõlemast otsast. Eriliste omadussõnalembidena paistavad silma Neeme Raud, Marek Laane ja Kristel Ross.

Kolmandana võtsime vaatluse alla veel ühe stilistilise omaduse - osalausete keskmist hulka lause kohta. Jällegi leiame agentuure ning ajalehti graafiku mõlemast otsast. Kahte graafikut võrreldes torkab silma Henrik Roonemaa, kes on omadussõnade kasutuse poolest viimaste seas, kuid see-eest on esirinnas osalausete poolest.

## Lisanna ja Marti
Kodutöös kirjeldasime artiklikorpuses lemmatiseeritud nimede esinemist ja analüüsisime nimede esinemissageduse seoseid artikli rubriigiga.
Nimede puhul kasutasime lemmatiseeritud vorme. Nimede hulgas üheksa kõige sagedasemat olid:
* ('Eesti', 1315),
* ('Tallinn', 548),
* ('Tartu', 387),
* ('Venemaa', 319),
* ('Euroopa', 274),
* ('Tshetsheenia', 245),
* ('Vene', 200),
* ('Soome', 166),
* ('Baltic', 143).
Kohanimede selline sagedusjaotus võib olla seotud tollele ajale iseloomulike sündmustega ja protsessidega: rahandus- ja majanduskriis Venemaal, mis mõjutas ka Eesti majandust, teine Tshetsheenia sõda, Euroopa liiduga liitumise protsess.
Eelneva loenduse põhjal tuli välja, et kõige sagedamini esinevad erinevad kohanimed, seega otsustasime analüüsisida nende jaotust rubriikide lõikes.
Järgneval joonisel on toodud top7 kohanime esinemine iga rubriigi kohta. Näiteks on võimalik näha, et paljudes rubriikidest käib läbi Tshetseenia. Nagu ka eelnevalt mainitud, siis oli artiklite ajaperioodil parasjagu käimas teine Tshetseenia sõda. Venemaa ja Tshetsheenia esinevadki kõige sagedamini välisuudiste rubriigis, mis näitab nende kohtadega seotud uudiste päevajalisust 1999. oktoobris 1999.
Rubriik, milles esines kõige suurem arv mingi kohanime mainimist, oli "Eesti" ja kõige suurem arv kordi esinenud kohanimi oli, nagu võikski arvata, Eesti. Järgmised kaks rubriiki, milles esines suur arv mingi kohanime mainimisi, olid "Majandus" ja "Arvamus" - mõlemas oli kõige rohkem mainitud kohanime esinemissagedus suurem kui 140 korda ja selleks kohanimedeks oli jällegi Eesti.
Kultuuri rubriigis räägitakse palju Eestist, aga teemaks tulevad ka USA ja Hollywood. Tasub mainida ka seda, et antud rubriigis räägitakse näiteks rohkem Soomest kui USAst. Spordi rubriigis on üle 40 korra mainitud Itaaliat - kas parasjagu oli toimumas mõni tähtsam spordivõistlus?

## Annika ja Egle
Uurimisküsimus: Milliseid omadussõnu kasutati Positmehe arvamusartiklites ja milliseid Päevalehe arvamusartiklites?
Selle leidmiseks tuli jaotada korpus kaheks: Postimehe arvamusartiklid ja Päevalehe arvamusartiklid ehk esiteks kui meta['ajalehenumber'] sisaldas "Postimees" ja teised kui meta['ajalehenumber'] sisaldas "Päevaleht". Rubriik pidi olema "Arvamus". Postimehest sai 47 sellist artiklit ning Päevalehest 22. Järgnevalt valiti teksistidest omadussõnad ehk postags oli "A". Postimehe artiklites oli 3316, Päevalehes 1456 omadussõna. Järgnevatel graafikutel on toodud 15 levinumat omadussõna ühes ja teises väljaandes. Huvitaval kombel on omadussõnadena klassifitseeritud ka pigem tegusõnana tunduvad sõnad, kuid estnltk tutorialit lugedes tuli ka välja, et sellised sõnad liigituvad ka omadussõnade alla. Huvitav oleks teada saada, kas kuidagi saaks vaadata ka ainult klassikalisi omadussõnu.
Tulemustest selgus, et Postimehes on -nud ja -tud lõpuga omadussõnu rohkem kasutatud, eristuvad neist vaid 2. kohal olev uus, 3. kohal suur ja 4. kohal hea. Päevalehes on rohkem erinevaid sõnu, uus 1. kohal, 3. kohal suur ja 4. kohal riiklik, järgnevad näiteks viimane, registreeritud, jne. Ehk võiks öelda, et Päevalehes on sõnakasutus pisut põnevam.

