--- title: "Proposal for a cache system for export of data from the Royal Library's Radio and TV collection" tags: KB, projects, data, danish speech model, internal --- Proposal for a cache system for export of data from the Royal Library's Radio and TV collection — TV Cache for Research (TVCR) === ## Table of Contents [TOC] ## Introduction During the spring of 2022 Aarhus University (AU) entered into an agreement with the Royal Library (KB) on export of large amounts of radio programmes in preparation for the creation of a new, modern, and state of the arts language model for Danish. This model has just been published on e.g. LinkedIn: [Danish Automatic Speech Recognition just got better - and we're only getting started! 🚀](https://www.linkedin.com/feed/update/urn:li:activity:6965282128099995648/) and has been getting a lot of attention. The model is being downloaded by several hundreds parties each month. We consider this an excellent example of bringing the cultural heritage of Denmark into play — and in the forefront of both research and, in the long run, creating state of the art models for understanding spoken Danish for the benefit of all. Building such a model requires two high level steps: * training of the model on pure audio * finetuning the model on corresponding audio and text This proposal is pertaining the latter step. We need as large amounts of corresponding audio and transcripts as we can get. The global and open community has some smaller data sets, but as this model has the potential to supercede all existing available models in text-to-speech for Danish, we hope that KB will utilise this unique oportunity to be part of developing a state-of-the-art language model for Danish speech-to-text. The idea presented in this proposal was concieved by involved parties from AU and KB during the discussions leading up to the initial export of data from the Radio/TV collection in the spring of 2022. Lars Mydtskov from KB was the contact at KB. ## The Proposal Name suggestion: TV Cache for Research (TVCR). Architecture 1. A real time system for setting aside data files that is integrated with the present system for receiving Radio and TV data at KB. This system has to have a configuration for filtering the data stream and only setting aside the relevant data, i.e. audio and subtitles. * This can only be developmed at and by KB. 3. Storage system that can hold the cache for an agreed upon amount of days. * The responsibility of fetching the data will rely solely at AU. If the AU system fails, data in the cache will be lost. 5. A system for cleaning the cache for old data. 6. A system that allows AU to fetch data from the cache. * This can be based on `sftp` Pink area represents the proposed TV Cache system ```mermaid sequenceDiagram autonumber TV Broker->>KB TV: Recieve TV streams rect rgb(255, 239, 255) KB TV->>TV Cache: Copy subset alt cache TV Cache->>TV Cache: Delete data when age > 1w TV Cache-->>AU: Fetch data! end end KB TV ->> KB Storage: Move data to long term storage %Note over TV Cache: Delete if data age > 1w ``` Comments 1. As an option, audio and subtitle data could be extracted from the video files when the data is copied into the cachce. This would be to reduce the needed amount of storage for the cache and faster transfer rates to AU 2. Maybe use some or all of the existing system, that KB provides for VIA ### Scope Primary principle is to build a system for superusers with no end user interface. I.e. a low level technical setup. Proof of concept as a first step. Relying on existing best practice between KB and Center for Humanities Computing/AU. # Notes from korrespondence Nedenstående tråd startede med at Bjarne og Ditte modtog vores forslag. ## Fra: Bjarne Andersen <bja@kb.dk>, Dato: tirsdag, 4. oktober 2022 kl. 15.47 Emne: RE: Forslag til et system til udlevering af rå-materiale fra TV samlingen Det lyder som både et spændende formål og en spændende tanke. Jeg har kun ganske få kommentarer til det foreslåede design - I flowet der flytter udvalgte dele til ”AU-download-område” kunne man transformere TV_filerne til lyd + undertekster + tekst-TV – jeg antager at video-sporet er uinteressant med mindre der er tale om indebrændte undertekster I vil trække ud via OCR - Vi er for nylig begyndt at hente indhold direkte fra DRTV – her får vi videofiler og tilhørende undertekstfiler i standard-formater. Dette indhold er sandsynligvis meget nemmere at gå til for Jer. Vi henter pt. kun indhold fra DRTV som ikke kommer på broadcast-kanalerne (DR1, DR2, Ramasjang) – men på trods af det har vi pt. 6193 udsendelser med tilhørende undertekst-filer fordelt på 3 typer - 1566 Foreign - 728 Foreign_HardOfHearing - 3899 HardOfHearing Altså svarende til 3899 udsendelser på dansk med tilhørende undertekster med tidskoder helt ned på decimalen. – det er vel 2-3000 timer. Hvis man udvidede denne streaming-nedtagning til også at tage DR1 og DR2 med ville man få måske dobbelt så meget indhold vil jeg tro. Underteksterne er efterproducerede (ofte) og derfor kan noget af talesproget været ”glattet ud” hvor fx enkelte fyldord ikke er med i tekstningen. Det problem gør sig uden tvivl gældende uanset hvor data kommer fra (undertekster, tekst-tv, indebrændte tekster). Det vil koste noget tid at udvikle, hvis der skal være en løbende leverance af enten vores brodcast-arkiveringer eller det nye DRTV-arkiveringer. Så et åbent spørgsmål vil selvfølgelig hurtig blive både hvor meget tid og hvor skal pengene komme fra. ## From: Per Møldrup-Dalum <per@cas.au.dk>, Sent: Friday, October 7, 2022 11:26 AM Subject: SV: Forslag til et system til udlevering af rå-materiale fra TV samlingen Hej Bjarne Jeg var lige omkring KB til en kop kaffe og løb der ind i Lars. Han nævnte så den API tjeneste som KB kører overfor VIA. Som jeg lige umiddelbart forstod den, lyder det præcis, som noget vi med stor fordel ville kunne gøre brug af her. Systemmæssigt er det hele på plads og i drift. Hvis det er som det lyder, kunne man så overveje et aftalegrundlag som i en afgrænset periode ville give os adgang til den samme API, som VIA benytter? Det kunne måske være noget i til med at ”i den fremadrettede periode fra 1. november 2022 til 1. november 2023 udleveres TV til AU under disse betingelser …”. Alt skal selvfølgelig specificeres og gøres konkret indenfor de sædvanlige aftaleregler osv. ## Fra: Bjarne Andersen <bja@kb.dk>, Dato: fredag, 7. oktober 2022 kl. 11.47 Emne: RE: Forslag til et system til udlevering af rå-materiale fra TV samlingen Det er bestemt en teknisk mulighed. Jeg tror dog ikke vi kan blande jer helt sammen med VIA – der er blandt andet en cache-folder hvor bestilte klips ligger som filer på serveren hvorfra API’et også kan udlevere dem og hvis Jeres clips blandes med VIAs tror jeg I begge bliver forvirrede. Men der må uden at bruge rigtig mange timer kunne etableres en parallel installation af API-applikationen med egne clip-mapper. Og så skal der laves nogle huller i noget firewall da dette API ikke har anden beskyttelse så vidt jeg husker. Så I skal kunne begrænse trafikken fra Jeres side på nogle helt bestemte IP-numre, som ingen andre på AU har adgang til at sende requests fra. Ellers skal der etableres noget andet sikkerhed. Ift. Din forrige mail: - Vi overvejer selv at udvide DRTV-arkiveringen til at omfatte også broadcast-kanalerne da indholdet netop kommer udklippet og i høj video-kvalitet (som I så ikke har så meget brug for) – men det er ikke afklaret og besluttet. Vi kunne måske gøre det primært for Jer – det koster noget ekstra diskplads og noget mere indhold i en tilhørende database – men det er ikke store mængder (pt. 12Tb – så måske en fordobling af det) - Dette indhold havner pt. på vores pre-ingest, så det findes på disk i modsætning til det store radio/TV-arkiv som ganske rigtigt kun findes på bånd bortset fra den løbende 30-60 dages chache vi har (den som API-løsningen bygger ovenpå) Det kommer helt an på juraen – og det er Dittes bord – om vi kan give AU adgang til indholdet via disse muligheder. # Notes from meetings ## Meeting 2022-10-31 at KB Vi definerede tre ting - udlevering af DRTV - undersøgelse af gennemførlighed af udlevering af arkivet fx ifm. Jens Henrik Leonard Jensen igangværende båndmigrering - udkast til cache-systemet Ditte laver udkast til udlevering af DRTV streaming fra DR. Vi laver et fælles udkast til cache-systemet. Efter dette udkast mødes vi med KB (Ditte Laursen, Bjarne Andersen, Lars Mydtskov og Jens Henrik Leonard Jensen) især med henblik på udtræk fra arkivet.