---
tags: tekstiaine
---
# 07.04.2021 Jagatud märkmed (tekstitöötlus)
## 07.04.2021
### Saksamaa
gapminder %>% filter(country=="Germany")
### Brasiilia
brasiilia <- gapminder %>% filter(country=="Brazil")

### Ameerika
gapminder %>%
filter(continent=="Americas")

### järjestamine
gapminder %>%
filter(year == 1952) %>%
arrange(pop)
gapminder %>%
filter(year == 1952) %>%
arrange(desc(pop))
### soome aja järjekorras
finland %>%
arrange(desc(pop))
finland %>%
arrange(desc(year))
gapminder %>%
filter(continent=="Europe") %>%
filter(year == 1952) %>%
arrange(country)
gapminder %>%
filter(country=="Brazil") %>%
ggplot(aes(x=year,y=gdpPercap))+
geom_point()+
labs(title="Brasiilia rikkus 1952-2007")
## 14.04.2021
tabeli ridade filtreerimine
edetabel %>%
filter(artist=="Nublu")
siia saab lisada märkmeid.
1 1994 1 NA Ummamu… Kõnõt… lyrics-umma… 1 :,:Välän külmetas ja t… et
1 2018 1 877 Nublu Mina ka… lyrics-nub… 1 Sest sa ei tulnud siia… et
1 2013 2 771 Karl-Er… Seitsm… lyrics-karl… 1 kaua kaua olen … et
1 1994 2 NA Vennas… Pille-… lyrics-ven… 1 "Taevas s… et
1994 4 NA The T… Lill… lyrics-… 1
1997 5 775 Maarja First … lyrics-maa… 1 "Constricte… en
1 2003 8 779 Vanilla … Tough Enough lyrics-vanilla_ninja… 1 "Baby only the strong would survive Over mysteries of l… en
1994 8 NA Termina… Torm lyrics-terminaator-to… 1 "Olen tulnud liiga pikalt teelt Tühja maja… et
1 1999 16 316 Ines Illusion O… lyrics-ines-il… 1 "I'm sitting alone right her… en
1996 16 320 Bläck ~ Vaata ~ lyrics-blac~ 1 Nonii nonii n~ et
1 2011 38 83 Iiris Mely… lyrics-…
2 2012 39 48 Iiris Weir… lyrics-…
3 2013 32 86 Iiris Tige… NA
4 2017 35 57 Iiris Stra… lyrics-…
5 2018 32 78 Iiris Star NA
edetabel %>%
filter(artist=="Smilers") %>%
select(year,rank,song)
### smilers top 5-10
#' Proovi nüüd kätte saada kõik lood mis olnud smilersil küll esikümnes, aga mitte esiviies. (Vihje: vaata tulpa rank.)
edetabel%>%
filter(artist=="Smilers") %>%
select(year,song,rank) %>%
filter (rank %in% 6:10)
edetabel%>%
filter(artist=="Smilers") %>%
select(year,song,rank) %>%
#filter(year %in% 2001:2007)
filter(rank %in% 6:10)
edetabel%>%
filter(artist=="Smilers") %>%
select(rank,song) %>%
filter(rank>5) %>%
filter(rank<11)
edetabel%>%
filter(artist=="Smilers" & rank %in% 6:10)
### inglise keeles 1990ndatel
edetabel %>%
filter(year %in% 1990:1999 & language=="en")
edetabel%>%
filter(year<2000 & year>1989) %>%
select(song,language) %>%
filter(language=="en")
edetabel %>%
filter(year<2000 & year>1990) %>%
select(song,year, language) %>%
filter(language=="en")
### 10 juhuslikku esikohalugu
edetabel %>%
filter(year==2017) %>%
sample_n(10) %>%
select(artist,song)
edetabel %>%
filter(rank==1) %>%
sample_n(10) %>%
select(artist,song)
### mitu korda artist on eri aastatel olnud
Terminaator esines:
1 1994 2
2 1995 3
3 1996 4
4 1997 4
5 1998 4
Taukar:
1 2013 1
2 2014 3
3 2015 1
4 2016 3
5 2017 2
6 2018 1
Maarja esines:
1 1997 3
2 1998 2
3 2000 1
4 2002 1
5 2004 1
6 2006 1
```
year artist n
<dbl> <chr> <int>
1 1995 Code One 2
2 1996 Code One 3
3 1997 Code One 1
4 1998 Code One 1
5 2002 Code One 1
```
Vaiko Eplik esines:
1 2011 1
2 2012 4
3 2013 1
4 2014 2
Vennaskond esines:
1 1994 3
2 1995 1
3 1996 2
4 1997 1
5 2000 1
Must Q esines:
1 1995 4
2 1996 2
1 2012 Põhja-Tallinn 4
2 2013 Põhja-Tallinn 5
3 2014 Põhja-Tallinn 3
4 2017 Põhja-Tallinn 2
### Mis keeled 2014 ja 1994
year language n
1 1994 et 28
2 1994 NA 10
3 1994 en 2
year language n
1 2014 et 28
2 2014 en 8
3 2014 NA 4
## 21.04.2021
edetabel %>%
arrange(rank, desc(year))
edetabel %>%
arrange(desc(year)) %>%
arrange(rank)
### Lugu, mis on häältesaagilt 10. kohal.
edetabel %>%
arrange(desc(votes)) %>%
filter(row_number() == 10)
edetabel %>%
arrange(desc(votes)) %>%
mutate(rownr=row_number()) %>%
filter(rownr==10)
2006 3 2265 A-Rühm Palmisaarel
### Iga artisti paremuselt 10. lugu
edetabel %>%
group_by(artist) %>%
arrange(artist, rank) %>%
filter(row_number()==10) %>%
ungroup()
edetabel %>%
group_by (artist) %>%
arrange (artist, rank) %>%
mutate (artistbest = row_number()) %>%
filter (artistbest == 10) %>%
select (artist, rank, year) %>%
ungroup()
### Iga artisti kõige uuem tabelisse saanud lugu
edetabel %>%
group_by(artist) %>%
arrange(artist, year) %>%
filter(year==max(year)) %>%
ungroup()
### Kuidas lihtsustada
edetabel %>%
filter(rank==40) %>%
arrange(artist)
### Mõne artisti laulusõnad tabeli kujul
year rank votes artist song filename source language word
1 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et taevas
2 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et sinetav
3 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et ja
4 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et hämar
5 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et kuhugi
6 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et on
7 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et kadund
8 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et kuu
9 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et sulalumine
10 1994 2 NA Vennaskond Pille-Riin lyrics-vennaskond-pille-riin 1 et on
laulusonad %>%
filter(artist=="Vennaskond")
### Mõne artisti enimkasutatud sõnad
laulusonad %>%
filter(artist=="Vennaskond") %>%
count(word,sort=T)
Kerli enimkasutatud sõna on Love
:)
Maiani enimkasutatud sõna on "ma".
Zetodel enimkasutatud sõna on "sanna".
### Artistide enimkasutatud stopsõnad
laulusonad %>%
left_join(stopsonad2,by="word") %>%
filter(artist=="Smilers") %>%
filter(onstopsona==TRUE) %>%
count(word,sort=T)
### stopsõnade eemaldamine ilukirjanduskorpusest
ilukirj_sonad <- ilukirj_sonad %>%
anti_join(stopsonad,by="word") %>%
mutate(prop_ilukirj=round(n_token/sum(n_token),3))
### artistide sagedasemad sõnad stopsõnadeta
Blacky esimesed viis
1 veidi 11
2 südame 8
3 kallis 6
4 piina 6
5 ingel 5
Bläck Rokit
1 vaata 19
2 itimees 16
3 hobune 11
4 itte 10
5 iti 8
6 kappab 8
7 asju 6
8 hobu 6
9 mees 6
10 tilluke 6
Vaiko Eplik
1 mõrudais 28
2 mõteteis 22
3 kiiret 12
4 unedes 11
5 moonaliisa 8
6 näe 8
7 naeratab 8
8 ongi 8
9 öö 8
10 vari 8
Terminaator
1 ref 36
2 kord 31
3 la 23
4 tean 20
5 vana 17
6 aru 16
7 tüdruk 15
8 elu 14
9 head 14
10 silmad 14
### levinumad sõnad vaiko epliku lauludes
1 ei 42
2 ma 42
3 ja 39
4 mõrudais 28
5 lähen 26
6 kus 24
7 sinna 24
8 mõteteis 22
9 vahel 17
10 ole 15
11 kuhu 14
12 või 14
13 mina 13
14 sina 13
15 ilmaski 12
16 kiiret 12
17 oled 12
18 olen 12
19 sul 12
20 kui 11
## 05.05.2021
### Kontrollülesanded.
Ülesanne1: Valige üks lugu. Ja looge uus tulp, kus on sõnade järjestus märgitud.
laulusonad %>%
filter(song=="Itimees") %>%
mutate(word_nr=row_number())
laulusonad %>%
filter(song=="Neiu Mustas Kleidis") %>%
mutate (word_nr=row_number())
laulusonad %>%
filter(song=="Käime katuseid mööda") %>%
group_by(year) %>%
mutate(word_nr=row_number())
Ülesanne2: Valige üks artist. Lugege kokku, mitu sõna neil oli count() funktsiooniga.
laulusonad %>%
filter(artist=="Vennaskond") %>%
count(word)
laulusonad %>%
filter(artist=="Vennaskond") %>%
count(sort=T)
### Graafikud
Pildi lisamiseks graafikul paremklõps ja 'copy image' (võib ka screenshoti kaudu teha).
Kui pilt on kopeeritud, siis ctrl+v saab selle lisada siia jagatud märkmetesse.
#### Esimene katsetus

Smilers

Maarja laulud

Inese laulud :)

Koit Toome
#### Sõnade asukohad tekstis

Vikerkaar: sa/ma

Itimees: iti/itimees

Viska leili - viska/leili
![image alt][reference][](https://i.imgur.com/OAXtkdP.png)
Mendid - mendid ei
```
asukohad %>%
filter(song=="Mendid") %>%
filter(word=="mendid"|word=="ei") %>%
ggplot()+
geom_point(aes(y=song,x=asukoht,color=word))
```
1. Proovige leida nüüd kõik fraasid, mis sisaldavad eestit ükskõik, mis kujul
2. Proovige leida, mis vormides 'eesti' lauludes esineb.
3. Proovi ise! Vali mõni lugu ja kujuta selles sagedalt esinevaid sõnu.
### 5. Pikemad tekstid (12.05.2021)
#### Otsi mõnd sõna tekstist ja kuva nende asukohad samasuguses graafikus.





```
asukohad %>%
filter(str_detect(word,"^tõ[de]")|str_detect(word,"õigus")) %>%
mutate(type=str_extract(word,"tõ[de]|õigus")) %>%
ggplot(aes(x=asukoht,y=type))+
geom_point()
```

```
top_viisgrammid <- viisgrammid %>%
count(fivegram,sort=T) %>%
filter(row_number()<11)
asukohad5 <- viisgrammid %>%
mutate(nr=row_number(), n=n()) %>%
mutate(asukoht=nr/(n+1)) %>%
ungroup() %>%
inner_join(top_viisgrammid,by="fivegram")
asukohad5.1 <- viisgrammid %>%
mutate(nr=row_number(), n=n()) %>%
mutate(asukoht=nr/(n+1)) %>%
group_by(fivegram) %>%
mutate(mitu_on=n()) %>%
filter(mitu_on>3)
asukohad5 %>%
ggplot(aes(x=asukoht,y=fivegram))+
geom_point()
```
viisgrammid %>%
count(fivegram,sort=T) %>%
mutate(nr=row_number(), n=n()) %>%
mutate(asukoht=nr/(n+1)) %>%
ungroup()
```
raamat1_sonad2 <- raamat1 %>%
unnest_tokens(word,txt,to_lower=F)
peatykid_sonad2 <- raamat1_sonad2 %>%
group_by(chapter) %>%
count(word,sort=T)
peatykid_sonad2 %>%
anti_join(stopwords,"word") %>%
mutate(row_number=row_number()) %>%
filter(row_number<11) %>%
filter(chapter<11) %>%
ggplot(aes(x=chapter,y=row_number,label=word))+
geom_label()
peatykid_sonad2 %>%
anti_join(stopwords,"word") %>%
filter(!str_detect(word,"[A-ZÕÄÖÜ]")) %>%
mutate(row_number=row_number()) %>%
filter(row_number<11) %>%
filter(chapter<11) %>%
ggplot(aes(x=chapter,y=row_number,label=word))+
geom_label()
```
### Küsimused real 511-619

words %>%
count(filename) %>%
ggplot(aes(x=filename,y=n))+
geom_col()
```
words %>%
count(filename) %>%
ggplot(aes(x=filename,y=n))+
geom_col()+
coord_flip()
words %>%
count(filename) %>%
ggplot(aes(y=filename,x=n))+
geom_point()
```
words %>%
count(word, sort=T)
words %>%
count(word,sort=T) %>%
filter(row_number()<11) %>%
ggplot(aes(y=word,x=n))+
geom_point()
failinime_kaupa <- words %>%
group_by(filename) %>%
count(word, sort=T)
words %>%
filter(filename=="Andres_Saal_Vambola.utf8") %>%
count(word,sort=T) %>%
filter(row_number()<11)
words %>%
group_by(filename) %>%
count(word,sort=T) %>%
filter(row_number()<11)