# Leveraging Hybrid Modeling for Enhanced News Sensationalism Detection --- ## Outline 1. web crawling 2. text extractor comparison 3. filtering data 4. model training 5. model evaluation 6. Linguistic heuristics --- # Establishing a Baseline Common Crawl (2023 collections with .hu domain) starts from beginnning of domain (1999) ≈ 186 000 articles with 'tabloid' category in url 786 domains --- # Crawling additional urls Using News Please Slowing the process random backoff --- # Filtering training data keeping only tagged data Total Count: 34553 Filtered Count: 13375 ("/bulvar/") baseline: crawled data without "bulvar" in url --- # Training process huBERT (Nemeskey:2021) mBERT (Devlin et al.:2018) PULI-LARGE (Yang et al.:2023) 26000 items - sensationalist / baseline 50-50 ---- # Training specs GPU: NVIDIA gtx 1080ti fine tuning time: 5 hours variying batch size - uneven models bert-base vs bert-large soon available on huggingface --- # Eval dataset fresh crawl - 1000 not tabloid - 20 tabloid --- | Model | Epoch | Loss | F1 | |-----------|-------|---------|----------| | hubert | 1 | 0.1291 | 0.9704 | | hubert | 2 | 0.3561 | 0.9450 | | hubert | 3 | 0.3129 | 0.9580 | | mBERT | 1 | 0.1929 | 0.9449 | | mBERT | 2 | 0.3424 | 0.9213 | | mBERT | 3 | 0.3661 | 0.9377 | | PULI-BERT | 1 | 0.1108 | 0.9721 | | PULI-BERT | 2 | 0.4169 | 0.9452 | | PULI-BERT | 3 | 0.4241 | 0.9524 | --- # Linguistic heuristic tabloid is mostly conserned with people - higher chance of finding a named entity S/2 usage - mimicing informal speech short statements - - "Nem tűr halasztást! ..." - It cannot be delayed ... - "Megdöbbentő: ..." - Shocking: ... --- # Adjective usage high frequency of Adj in tabloid style - not true 😢 | Metric | Sensationalist | Baseline | |-------------------------------|----------------|----------| | Total Adjectives | 41,451 | 49,294 | | Total Adverbs | 6,035 | 7,639 | | Average Adjectives per Title | 2.76 | 3.29 | | Average Adverbs per Title | 0.40 | 0.51 | | Average Title Length | 52.84 | 64.50 | --- # Adjective usage II. -> short titles strong Adjectives e.g.: - "komoly baj" - serious trouble - "drámai vallomás" - dramatic confession - "borzasztó fájdalmakat" - (having) terrifying pain --- # Expanding the pipeline Incorporating emagyar (Simon et al.) - tokenization - NER - finding ajduncted Adjectives Embedding model for Adj intensity - clustering --- # Conclusion 2 models ≈0.95 f1 score daily crawler dataset 13 375 articles - 5 071 872 tokens - baseline - 2 641 345 tokens - sensationalist --- Citations > Simon Eszter, Indig Balázs, Kalivoda Ágnes, Mittelholcz Iván, Sass Bálint, Vadász Noémi. Újabb fejlemények az e-magyar háza táján. In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.): MSZNY 2020, XVI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2020). Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 29-42. > Balázs Indig, Bálint Sass, Eszter Simon, Iván Mittelholcz, Noémi Vadász, and Márton Makrai: One format to rule them all – The emtsv pipeline for Hungarian. In: Proceedings of the 13th Linguistic Annotation Workshop. Association for Computational Linguistics, 2019, 155-165. > Indig Balázs, Sass Bálint, Simon Eszter, Mittelholcz Iván, Kundráth Péter, Vadász Noémi. emtsv – Egy formátum mind felett. In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.): MSZNY 2019, XV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2019). Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 235-247. > Váradi Tamás, Simon Eszter, Sass Bálint, Mittelholcz Iván, Novák Attila, Indig Balázs: e-magyar – A Digital Language Processing System. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 1307-1312. > Váradi Tamás, Simon Eszter, Sass Bálint, Gerőcs Mátyás, Mittelholcz Iván, Novák Attila, Indig Balázs, Prószéky Gábor, Farkas Richárd, Vincze Veronika: Az e-magyar digitális nyelvfeldolgozó rendszer. In: MSZNY 2017, XIII. Magyar Számítógépes Nyelvészeti Konferencia, Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 49-60. > Yang Zijian Győző, Dodé Réka, Ferenczi Gergő, Héja Enikő, Jelencsik-Mátyus Kinga, Kőrös Ádám, . . . Váradi Tamás. (2023). Jönnek a nagyok!: BERT-Large, GPT-2 és GPT-3 nyelvmodellek magyar nyelvre. > Hamborg, F., Meuschke, N., Breitinger, C., & Gipp, B. (2017). News-Please: A Generic News Crawler and Extractor. In M. Gaede, V. Trkulja, & V. Petra (Eds.), Proceedings of the 15th International Symposium of Information Science (pp. 218–223). https://doi.org/10.18452/1447 > Nemeskey, D. M. (2021). Introducing huBERT. In XVII. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2021 (pp. 3–14) --- # Are there any questions? 😁
{"title":"StaPs 2024","contributors":"[{\"id\":\"c290d3cb-d013-43e7-893a-1c38fe72ef30\",\"add\":7568,\"del\":2578}]","description":"web crawling"}
    131 views