# Leveraging Hybrid Modeling for Enhanced News Sensationalism Detection
---
## Outline
1. web crawling
2. text extractor comparison
3. filtering data
4. model training
5. model evaluation
6. Linguistic heuristics
---
# Establishing a Baseline
Common Crawl (2023 collections with .hu domain)
starts from beginnning of domain (1999)
≈ 186 000 articles with 'tabloid' category in url
786 domains
---
# Crawling additional urls
Using News Please
Slowing the process
random backoff
---
# Filtering training data
keeping only tagged data
Total Count: 34553
Filtered Count: 13375 ("/bulvar/")
baseline: crawled data without "bulvar" in url
---
# Training process
huBERT (Nemeskey:2021)
mBERT (Devlin et al.:2018)
PULI-LARGE (Yang et al.:2023)
26000 items - sensationalist / baseline 50-50
----
# Training specs
GPU: NVIDIA gtx 1080ti
fine tuning time: 5 hours
variying batch size - uneven models bert-base vs bert-large
soon available on huggingface
---
# Eval dataset
fresh crawl
- 1000 not tabloid
- 20 tabloid
---
| Model | Epoch | Loss | F1 |
|-----------|-------|---------|----------|
| hubert | 1 | 0.1291 | 0.9704 |
| hubert | 2 | 0.3561 | 0.9450 |
| hubert | 3 | 0.3129 | 0.9580 |
| mBERT | 1 | 0.1929 | 0.9449 |
| mBERT | 2 | 0.3424 | 0.9213 |
| mBERT | 3 | 0.3661 | 0.9377 |
| PULI-BERT | 1 | 0.1108 | 0.9721 |
| PULI-BERT | 2 | 0.4169 | 0.9452 |
| PULI-BERT | 3 | 0.4241 | 0.9524 |
---
# Linguistic heuristic
tabloid is mostly conserned with people - higher chance of finding a named entity
S/2 usage - mimicing informal speech
short statements -
- "Nem tűr halasztást! ..." - It cannot be delayed ...
- "Megdöbbentő: ..." - Shocking: ...
---
# Adjective usage
high frequency of Adj in tabloid style - not true 😢
| Metric | Sensationalist | Baseline |
|-------------------------------|----------------|----------|
| Total Adjectives | 41,451 | 49,294 |
| Total Adverbs | 6,035 | 7,639 |
| Average Adjectives per Title | 2.76 | 3.29 |
| Average Adverbs per Title | 0.40 | 0.51 |
| Average Title Length | 52.84 | 64.50 |
---
# Adjective usage II.
-> short titles
strong Adjectives
e.g.:
- "komoly baj" - serious trouble
- "drámai vallomás" - dramatic confession
- "borzasztó fájdalmakat" - (having) terrifying pain
---
# Expanding the pipeline
Incorporating emagyar (Simon et al.)
- tokenization
- NER
- finding ajduncted Adjectives
Embedding model for Adj intensity - clustering
---
# Conclusion
2 models ≈0.95 f1 score
daily crawler
dataset 13 375 articles
- 5 071 872 tokens - baseline
- 2 641 345 tokens - sensationalist
---
Citations
> Simon Eszter, Indig Balázs, Kalivoda Ágnes, Mittelholcz Iván, Sass Bálint, Vadász Noémi. Újabb fejlemények az e-magyar háza táján. In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.): MSZNY 2020, XVI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2020). Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 29-42.
> Balázs Indig, Bálint Sass, Eszter Simon, Iván Mittelholcz, Noémi Vadász, and Márton Makrai: One format to rule them all – The emtsv pipeline for Hungarian. In: Proceedings of the 13th Linguistic Annotation Workshop. Association for Computational Linguistics, 2019, 155-165.
> Indig Balázs, Sass Bálint, Simon Eszter, Mittelholcz Iván, Kundráth Péter, Vadász Noémi. emtsv – Egy formátum mind felett. In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.): MSZNY 2019, XV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2019). Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 235-247.
> Váradi Tamás, Simon Eszter, Sass Bálint, Mittelholcz Iván, Novák Attila, Indig Balázs: e-magyar – A Digital Language Processing System. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 1307-1312.
> Váradi Tamás, Simon Eszter, Sass Bálint, Gerőcs Mátyás, Mittelholcz Iván, Novák Attila, Indig Balázs, Prószéky Gábor, Farkas Richárd, Vincze Veronika: Az e-magyar digitális nyelvfeldolgozó rendszer. In: MSZNY 2017, XIII. Magyar Számítógépes Nyelvészeti Konferencia, Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 49-60.
> Yang Zijian Győző, Dodé Réka, Ferenczi Gergő, Héja Enikő, Jelencsik-Mátyus Kinga, Kőrös Ádám, . . . Váradi Tamás. (2023). Jönnek a nagyok!: BERT-Large, GPT-2 és GPT-3 nyelvmodellek magyar nyelvre.
> Hamborg, F., Meuschke, N., Breitinger, C., & Gipp, B. (2017). News-Please: A Generic News Crawler and Extractor. In M. Gaede, V. Trkulja, & V. Petra (Eds.), Proceedings of the 15th International Symposium of Information Science (pp. 218–223). https://doi.org/10.18452/1447
> Nemeskey, D. M. (2021). Introducing huBERT. In XVII. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2021 (pp. 3–14)
---
# Are there any questions? 😁
{"title":"StaPs 2024","contributors":"[{\"id\":\"c290d3cb-d013-43e7-893a-1c38fe72ef30\",\"add\":7568,\"del\":2578}]","description":"web crawling"}