license: apache-2.0
Kommunal semantisk grundmodel 1 & 2 (KSG 1 & 2)
Beskrivelse – KSG #1
KSG #1 er tilvejebragt som en videretræning af det Norske nationalbiblioteks AI laboratories (NbAiLab)1 BERT-Base sprogmodel, og er trænet på 2,672,566 unikke sætninger som er skrabet og filtreret fra 94 kommunale hjemmesider.
Beskrivelse – KSG #2
KSG #2 er semantiske søgemodel der en finetunet version af den Kommunale grundmodel #1 til at klassificere et givet KL-område baseret på en inputsætning. Sprogmodellen trænet på 2,672,566 unikke sætninger som er skrabet og filtreret fra 94 kommunale hjemmesider.
Brug – KSG #1
Sprogmodellen er af typen Masked Language Model (MLM), på dansk en maskeret sprogmodel. Sprogmodellen er trænet til at prædiktere ord-kandidater til ét eller flere maskerede ord i en given sekvens af ord. Ved en succesfuld træning med denne metode opnår sprogmodellen såvel sprog som semantisk forståelse, og kan derfor anvendes til f.eks. semantisk søgning ved at producere embeddings (matematiske repræsentationer af ordsekvenser; f.eks. en sætning). Embeddings kan anvendes til at fremsøge synonymer til bestemte ord i en sekvens eller til at vurdere den sproglige sammenhæng af en given sætning.
Finjustere på ny data kan den videretrænes til at løse bestemte opgavetyper som f.eks. identifikation af navngivne entiteter, tekstanalyse i mange former, sentiment klassifikation, chatbot funktionalitet, sentiment-scoring m.v.
Brug – KSG #2
Sprogmodellen kan benyttes til at søge efter similære sætninger og klassificere hvilken KL-kategori en givet sætning stammer fra. Se indførte eksempel til orientering.
Datasæt anvendt til træning
Sprogmodellerne er trænet på 2,672,566 unikke sætninger og valideret på 54,543 sætninger. Dataen er delvist inddelt i KL’s fagområder og er opdelt i unikke sætninger, og derefter inddelt i trænings- og validerings- og testsæt. Se GitHub2 for beskrivelse af koden benyttet til præprocessering af det skrabede data. Det primære formål med at træne modellerne var en antagelse om at det sprogbrug kommunerne anvender på deres hjemmesider; 1) repræsenterede fagsprog (domæne) som anvendes i kommunal kontekst; og 2) at dette domæne sprogbrug gennem træning af en kommunal grundmodel, ville være et solidt udgangspunkt for træningen af aktindigtsorienteret sprogmodeller. Det viste sig i forløbet med træning af modellerne at antagelser om værdien af at træne en grundmodel var begrænset, og ikke gav yderligere værdi i forhold til træningen af en special aktindsigts orienterede sprogmodel til semantisk søgning. Men det vurderes at både model og data kan have en værdi for OS-miljøet i DK og udstilles derfor 'as-is' med en opfordring til yderligere processering af modeller og det rå datasæt.
Mereinformation
I denne artikel3 fra 2020 beskrives, hvordan en Masked Language Model (MLM)4 kan benyttes til at videretræne prætræ- nede modeller på ikke-annoteret domænespecifikt data kan forhøje kvaliteten af domænerelevante vector embeddings signifikant. Disse sprogmodeller optimeres ved at maskere enkelte ord i sætninger for derefter at forudsige hvilket ord, der er maskeret.
Links
1. https://huggingface.co/NbAiLab/nb-bert-base
2. https://github.com/AI-Aktindsigt-Sonderborg/modelling
3. https://arxiv.org/pdf/2004.10964.pdf
4. https://www.sbert.net/examples/unsupervised_learning/MLM/README.html