--- tags: projects, DeiC, KB Data --- Katrine Baunvig — N. F. S. Grundtvig i de danske medier ======================================================== [Toc] ## Beskrivelse fra DeiC interessetilkendegivelsen Title: N.F.S. Grundtvigs i danske medier ### Beskrivelse *The original description is in Danish.* Vi ønsker at kortlægge N.F.S. Grundtvigs (1783-1872) kulturhistorie. Det vil sige: Vi ønsker i en tredelt undersøgelse at dokumentere omfanget og indholdet af den medieomtale, Grundtvig har tiltrukket sig i sin levetid og i sit efterliv. Altså er der samlet tale om en undersøgelse, hvis periodemæssige spænd går fra 1783 og frem til i dag. Tredelingen er materialebestemt: **Grundtvig i radio og tv (1989 – i dag)** Under brug af Det Kgl. Biblioteks radio- og tv-materiale ønsker vi at undersøge: 1. Udviklingen i antallet af radio- og tv-programmer om Grundtvig. Undersøgelsen fokuserer på radio- og tv-materialets skriftlige metadata, dvs. titler og programomtaler. Hvor ofte er der programmer om Grundtvig? 2. Hvornår på døgnet sendes de? Primetime eller nattetimer? 3. Hvilket semantisk netværk er ’Grundtvig’ indlejret i? Hvilke 10 nøgleord optræder Grundtvig hyppigst sammen med? Og ikke mindst: Hvordan udvikler disse ord sig over tid målt i femårsintervaller fra 1980- 2019. **Grundtvig på nettet (2005 – i dag)** Under brug af Netarkivet ønsker vi at undersøge: 1. Hvor på nettet optræder ’Grundtvig’? På private eller offentlige sider? På hoved- eller undersider? I hvor høj grad er siderne isolerede eller link-forbundne? 2. Hvordan er den årlige udvikling i tilstedeværelsen af ’Grundtvig’ på nettet? Er der særlige Grundtvig- årstider eller -højtider? Er Grundtvig fx en påske, pinse- eller julemand? 3. Hvilket semantisk netværk er ’Grundtvig’ indlejret i? Ændrer det sig gennem perioden? Og inden for de enkelte årstider? **Grundtvig i avisen (1800 – 1880)** Under brug af Kulturarvsclusterets avismateriale ønsker vi at undersøge: 1. Omfanget af N.F.S. Grundtvigs optræden i danske aviser. Hvor ofte omtales han i og efter sin levetid? Er der særlige ’peaks’? Kan aviserne bekræfte den udbredte opfattelse, at Grundtvig får et offentligt gennembrud i 1830’erne? Kan aviserne bekræfte, at Grundtvigs død i 1872 var en mediebegivenhed? 2. I hvilke aviser og dermed hvilke regioner er der mest interesseret i Grundtvig før og efter hans død? Kan man bekræfte den hypotese, at Grundtvig følger med grundtvigianerne på landet? *Endelig*: Hvilket semantisk netværk er ’Grundtvig’ indlejret i? Hvilke 50 nøgleord optræder Grundtvig hyppigst sammen med? Og ikke mindst: Hvordan udvikler disse ord sig over tid målt i tiårsintervaller fra 1800-1920 (eller så langt vi kan komme). *Kierkegaard-kontrol*. I det omfang det er muligt ønskes tilsvarende kontrolundersøgelser udført på ’Søren Kierkegaard’. ## UCloud project Project name: Grundtvig i de danske medier ## Journal - [x] Enter dataextraction agreement with KB - [x] Recieve test data for both Netarkivet and the Radio/TV collection - [ ] validate Netarchive test data - and go for launch to KB - [x] validate Radio/TV test data - [ ] Recieve the full data dump ## Test data ### From Netarkivet Per composed two queries for extraction of test data ```shell= $ java -Xmx4G -cp netarchiveclient-2.6.0-jar-with-dependencies.jar \ dk.statsbiblioteket.netarchiveclient.job.NetarchiveExtactor \ ns \ 20170101 20180101 \ 1000 \ "author, comments, content, content_encoding, content_language, content_length, content_metadata, content_text_length, content_type, content_type_droid, content_type_ext, content_type_full, content_type_norm, content_type_served, content_type_tika, content_type_version, crawl_date, crawl_dates, crawl_year, crawl_year_month, crawl_year_month_day, crawl_years, description, domain, generator, hash, host, last_modified, last_modified_year, links, links_domains, links_hosts, links_public_suffixes, public_suffix, publication_date, publication_year, referrer_url, server, ssdeep_hash_bs_3, ssdeep_hash_bs_6, subject, title, url, url_norm, url_type, wayback_date" \ "text:\"grundtvig\" AND (content_type_norm:\"html\" OR content_type_norm:\"pdf\" OR content_type_norm:\"word\")" \ > test-run-grundtvig $ java -Xmx4G -cp netarchiveclient-2.6.0-jar-with-dependencies.jar \ dk.statsbiblioteket.netarchiveclient.job.NetarchiveExtactor \ ns \ 20170101 20180101 \ 1000 \ "author, comments, content, content_encoding, content_language, content_length, content_metadata, content_text_length, content_type, content_type_droid, content_type_ext, content_type_full, content_type_norm, content_type_served, content_type_tika, content_type_version, crawl_date, crawl_dates, crawl_year, crawl_year_month, crawl_year_month_day, crawl_years, description, domain, generator, hash, host, last_modified, last_modified_year, links, links_domains, links_hosts, links_public_suffixes, public_suffix, publication_date, publication_year, referrer_url, server, ssdeep_hash_bs_3, ssdeep_hash_bs_6, subject, title, url, url_norm, url_type, wayback_date" \ "text:\"kierkegaard\" AND (content_type_norm:\"html\" OR content_type_norm:\"pdf\" OR content_type_norm:\"word\")" \ > test-run-kierkegaard ``` We recieved the resulting files and need to validate, whether we can load them. The test data is stored in the test-data-webarchive folder on the data drive. - [ ] Test the data can be loaded into Python and operated on e.g. group by day and count words or number of different domains @márton When validated, we send a "go!" signal to KB, who then runs the complete extraction and makes that available to us for transfer to UCloud. ## Final data ### Netarkivet Waiting on go from us. ### From Radio/TV collection We've recieved data from KB from the Radio/TV collection. Per has validated, that it can be read and that it contains information on Grundtvig. ``` /Users/au15929/Downloads/grundtvig-kierkegaard-radio-tv: total used in directory 13688 available 503.2 GiB drwx------@ 16 au15929 staff 512 Aug 17 09:25 . drwx------@ 52 au15929 staff 1664 Aug 17 12:53 .. -rw-r--r--@ 1 au15929 staff 1082 Aug 16 14:26 grundtvig-kierkegaard.sha256 -rw-rw-r--@ 1 au15929 staff 640 Aug 16 14:25 grundtvig-nielsen.readme -rw-r--r--@ 1 au15929 staff 1651 Jun 29 09:46 grundtvig-nielsen.tsv -rw-rw-r--@ 1 au15929 staff 732 Aug 16 14:25 grundtvig-ritzau.readme -rw-r--r--@ 1 au15929 staff 2371510 Aug 16 14:04 grundtvig-ritzau.tsv -rw-rw-r--@ 1 au15929 staff 690 Aug 16 14:25 grundtvig-tvmeter.readme -rw-r--r--@ 1 au15929 staff 70004 Aug 16 14:06 grundtvig-tvmeter.tsv -rw-rw-r--@ 1 au15929 staff 722 Aug 16 14:25 kierkegaard-nielsen.readme -rw-r--r--@ 1 au15929 staff 4598 Jun 29 09:48 kierkegaard-nielsen.tsv -rw-rw-r--@ 1 au15929 staff 1053 Aug 16 14:25 kierkegaard-ritzau.readme -rw-r--r--@ 1 au15929 staff 4442842 Aug 16 14:11 kierkegaard-ritzau.tsv -rw-rw-r--@ 1 au15929 staff 705 Aug 16 14:25 kierkegaard-tvmeter.readme -rw-r--r--@ 1 au15929 staff 76055 Aug 16 14:15 kierkegaard-tvmeter.tsv ```