Kladdeark for kommentarar til stm 17
====================================
## 1.2 satsinger og resultater de seneste årene
> Videre har regjeringen (...) gitt midler til (...) samisk leksikografi ved UiT Norges arktiske universitet. (s. 8)
Regjeringa gav UiT ei årleg løyving på 1,5 millionar til samisk leksikografi, noko vi er svært glad for. Samtidig er dette ikkje nok til å løyse dei utfordringane dei samiske og det kvenske språksamfunnet står ovafor. Behovet for gode ordbøker er illustrert ved at dei eksisterande samiske e-ordbøkene har over 80000 oppslag i månaden. At kvaliteten ikke er god nok kan illustreres ved at den norsk-sørsamiske ordboka for ekspemel mangler ord som *smågutt, reinsdyr, kikkert, bursdag, regnbue, jomfru, oransje, kollega, fotballsko, begravelse, sølje, snømann, herlig, vaffel, oversettelse*, for bare å nevne noen. Den største utfordringa for dei som vil ta i bruk dei samiske språka er med andre ord å finne ord å ta språka i bruk med. Artiklane for det grunnleggande ordforrådet (hjelpeverb, preposisjonar, ...) er ofte ikkje gode nok til å få hjelp til å bruke desse orda. Ressursane brukt på norsk leksikografi er fleire titals gonger høgare enn for dei samiske språka, sjølv om det her gjeld tre ulike språk med eit langt dårlegare leksikografisk grunnlag. Norsk har sjølvsagt langt fleire talarar, men det er den same utfordringa å kartlegge grunnordforrådet for eit språk uavhengig av kor mange talarar det har. Etter vårt syn vil det mest effektive språktiltaket dei samiske språka kan bli møtt med vere ei firedobling (tidobling) av løyvingane til samisk leksikografi.
## 3.1 Samisk statistikk (Sjur sin merknad, no lagt inn i svartemplatet)
Det er problematisk at det norske folkeregisteret ikkje inneheld opplysningar om språk. Det gjer det svært vanskeleg å planleggja langsiktig språkpolitikk, noko som går særleg ut over dei språklege minoritetane i Noreg, inkl samisk. Det er til dømes svært vanskeleg å ha reell oversikt over behovet for barnehageplassar og skuleklassar når ein ikkje har slik statistikk.
Det gjer det òg svært utfordrande å planleggja behovet for samiskundervisning i dei store byane, jf det som står meir generelt om sentralisering og tilflytting til byane.
Det bør nemnast at dette problemet ikkje er avgrensa til dei samiske språka - det gjeld i praksis alle språk i Noreg bortsett frå bokmål.
Hovudargumentet mot å registrera språk har vore motstand mot å registrera etnisitet, tufta på norsk og europeisk historie. Men språk er ikkje etnisitet, og mangel på språkregistrering skapar store utfordringar for ein effektiv språkpolitikk som skal styrkja dei same språka, og vi veit at andre jamførbare land registrerer språk utan at det fører til ein rasistisk eller diskriminerande stat (Finland). I tillegg bør slik registrering vera frivillig, slik at ein på individnivå sjølv kan velja om ein vil gje staten denne informasjonen mot å på sikt få betre sørvis på sitt eige språk, eller heller avstå frå slik sørvis og halda informasjonen privat.
Etter vårt syn er dette det enklaste og samtidig mest effektive tiltaket for å forbetra (datagrunnlaget for) offentlege tenester på dei samiske språka. Utan kunnskap om det faktiske behovet må ein planleggja meir eller mindre i blinde.
Jf òg målsetjingane som er skildra i innleiinga til kapittel 4, *Likeverdige tjenestetilbud til samiske innbyggere – ansvarsfordeling*.
## ... vil konsultere Sametinget (s. 36)
### Til avsnitt 6.1.3, s. 36:
*”Det er noen særegne spørsmål knyttet til de samiske språkene, og Kultur- og likestillingsdepartementet vil konsultere Sametinget om den samiske delen av oppdraget til Nasjonalbiblioteket.”*
Kommentar:
Den sentrale utfordringa for generative språkmodellar for samisk er at grunnlaget for slike modellar er forsvinnande små, samanlikna med grunnlaget for norske språkmodellar. Omfanget av samisk tekst er (sannsynlegvis langt) mindre enn 1/1000 av det som finst for norsk, og det som finst er tematisk sett svært einsidig. Samtidig er det sannsynleg at dei samiske språkmodellane kan bli brukt av somme som ikkje kan samisk, og dermed ikkje er i stand til å vurdere kvaliteten av språket som blir produsert. Det trengst dermed arbeid ut over det å bruke det vesle som er av samisk tekst til å lage språkmodellar for samisk. For det første trengst det arbeid for å kompensere for manglande samisk tekst, og for det andre bør det utarbeidast metodar for evaluering av KI-generert samisk tekst, metodar som er uavhengig av dei nevrale modellane som har generert dei. Etter vårt syn er det problematisk å gje ei så stor løyving som 40 millionar kroner til (norske og) samiske språkmodellar utan å samtidig løyve pengar til evaluering av desse modellane, og til utarbeiding av uavhengige prosedyrer for kvalitetssikring.
Ein substansiell del av all språkteknologisk utvikling er evaluering av det som blir produsert, dvs kvalitetssikring og det å utvikla metodar for dette. Det miljøet som har kompetanse til å gjere dette er det språkteknologiske miljøet ved UiT, og i løyvinga til Nasjonalbiblioteket burde regjeringa ha lagt føringar for samarbeid mellom NB og UiT for å sikra at modellane laga av NB faktisk er gode nok til bruk i det samiske samfunnet.
### Sjur sine kommentarar til 6.1.3
Litt for mykje teknologioptimisme:
> Kunstig intelligens kan løse mange utfordringer det samiske samfunnet står overfor.
Det er problematisk at teksten ikkje konkretiserer kva for utfordringar det er KI kan løyse. Samiske lokalsamfunn står, som andre lokalsamfunn, ovafor mange utfordringar som ikkje er direkte knytt til språk, og der KI kanskje kan hjelpe. Det samiske samfunnet har også utfordringar som er knytt direkte til bruk av samisk språk, og for nokre av dei kan nok KI vere til hjelp. For taleteknologi er det gode grunnar til å vere optimistisk. Det har ved hjelp av nevrale modellar vorte laga talesyntese for fleire samiske språk og i ei ikkje alt for fjern framtid vil vi også få taleattkjenning. Maskinomsetjing til og frå samiske språk gjev til ein viss grad gode resultat, men det er viktig å innsjå at resultata av nevral maskinomsetjing til og frå samiske språk er langt mindre påliteleg enn dei er til og frå norsk. I verste fall kan dårleg maskinomsetjing gjere meir skade enn gagn, som når den grønlandske utgåva av Wikipedia sannsynlegvis kjem til å måtte stenge på grunn av velmeinande utanforståande publiserer så mykje "grønlandsk" tekst (produsert med Google Translate) at det gode innhaldet rett og slett druknar. I ein norsk kontekst vil ein slik måte å "løyse utfordringar" for samiske samfunn innebere eit langt skritt attende for samisk språkarbeid.
Hovudutfordringa er mangel på folk, og det kan ikkje maskiner løysa direkte. Med ei konkretisering av kva for utfordringar KI skal kunna hjelpa til med ville det vore lettare å ta stilling til konsekvensane av det dokumentet går inn for.
Framleis uklårt kva KI skal brukast til
Kapitlet problematiserer ikkje bruken av digital teknologi i barnehagen og småskulen, jf offentleg diskusjon i fleire nordiske land og fagmiljø om utfordringar knytt til skjermbruk for ungar. I staden:
> Barnehagens digitale praksis bidrar til barnas lek, kreativitet og læring i tråd med rammeplan for barnehagen.
Bruken av digitale hjelpemiddel bør avgrensast til språkstimulering, i den grad det finst tilgjengeleg taleteknologi for språket det gjeld, og taleteknologien er god nok. Brukt på rett måte kan slik språkstimulering delvis kompensera for manglande språkkunnskapar hjå personalet i barnehagen og skulen.
Det er påfallande at stortingsmeldinga ikkje nemner rapporten frå Sannings- og forsoningskommisjonen i avsnittet om språkteknologi og KI. Eitt av dei områda der det er lett å sjå stor nytte av språkteknologi inklusive taleteknologi og KI er i språkopplæringa. Samtidig er språkopplæring eitt hovudtema i oppfylginga av rapporten frå Sannings- og forsoningskommisjonen. Ein virtuell språklærar bygd på språkteknologi og kunstig intelligens blir aldri trøytt, og gjev rom for kvar og ein til å trena på språket for seg sjølv, til ein kjenner seg sikker nok til å bruka det offentleg.