Spring navigation over
Forside/Nyheder og arrangementer/Dansk Sprognævn med i stor sprogteknologisk satsning
15.3.2021

Dansk Sprognævn med i stor sprogteknologisk satsning

Styregruppen for Teknologi og Data under Digitaliseringsstyrelsen har besluttet at igangsætte udviklingen af et Centralt Ordregister.

Formålet med udviklingen af et Centralt Ordregister (COR) er at skabe en fælles referenceramme for alle danske ord og lemmaer. COR knytter et unikt nummer (indeks) til ethvert lemma og gør det muligt at jævnføre ordstoffet i forskelligartede sprogresurser som fx tekstkorpusser, talekorpusser, ordbøger, termbanker osv. COR vil dermed lette samkøringen af sprogdata fx til brug i maskinlæring og AI (kunstig intelligens).

COR-projektet består dels i at implementere og distribuere selve registeret, dels i at forsyne centrale dele af ordforrådet med betydningsoplysninger. COR er især målrettet virksomheder og forskere som arbejder med udvikling af sprogteknologi, men registeret og de tilknyttede databaser bliver frit tilgængelige og må anvendes til alle formål.

“Med et indeks for hele det danske ordforråd lettes samkøringen af sprogdata fx til brug i maskinlæring og kunstig intelligens, og på den måde sætter vi med COR skub i udviklingen af alle slags IT der bruger det danske sprog. Allerede i løbet af i år frigiver vi en betaversion med hele Retskrivningsordbogen,” siger Peter Juel Henrichsen, seniorforsker i Dansk Sprognævn.

Thomas Widmann, seniorkonsulent i Dansk Sprognævn, supplerer:

“Enhver tænkelig, ny applikation vil kunne få direkte adgang til det danske ordforråd, med garanti for korrekt stavning og bøjning og med betydningsoplysninger og oplysninger om naturlig udtale. Og ved ændringer af retskrivningen sikrer vi at COR indeholder både de gamle og de nye former. Så kan man meget nemt automatisk opdatere værktøjer og tekster til den nye retskrivning. Vi skaber dermed et langtidsholdbart fundament for de kommende års sprogteknologiske udvikling”.

Et Centralt Ordregister udvikles i et samarbejde mellem Center for Sprogteknologi ved Københavns Universitet, Dansk Sprognævn og Det Danske Sprog- og Litteraturselskab samt Digitaliseringsstyrelsen. Digitaliseringsstyrelsen bevilger Center for Sprogteknologi, Dansk Sprognævn og Det Danske sprog- og Litteraturselskab i alt 5.189.970 kr. i projektperioden som begynder nu og varer til december 2023. Sprognævnet modtager 1.348.000 kr.

Den overordnede projektledelse udføres samlet af direktør Thomas Hestbæk Andersen, Dansk Sprognævn, professor og centerleder Bolette S. Pedersen, Center for Sprogteknologi ved Københavns Universitet, og direktør Karen Skovgaard-Petersen, Det Danske Sprog- og Litteraturselskab.

Thomas Hestbæk Andersen, direktør i Dansk Sprognævn:

“Kunstig intelligens bevæger sig for øjeblikket hurtigt ind på de områder i vores privat- og arbejdsliv, hvor det bliver centralt korrekt at kunne håndtere betydninger og det kulturbærende i sproget. Derfor er det fx ikke tilstrækkeligt blot at tilpasse allerede fungerende engelske teknologier til dansk. Det glæder mig at tre stærke danske institutioner er gået sammen og med COR kommer til at give private virksomheder, offentlige myndigheder og institutioner i Danmark mulighed for at udvikle sprogcentrerede AI-systemer, der tager afsæt i anerkendt, lokalt forankret viden om dansk sprog og kultur, og som dermed matcher det samfund de skal interagere med”.