Det Centrale Ordregister (COR) er et nyt register der dækker hele det centrale danske ordforråd, og hvor hvert ord har sit eget nummer. Med COR vil det være langt nemmere at opdatere sprogteknologiske produkter og lave søgninger på tværs af store sprogresurser, fx tekstsamlinger, fag- og emneordbøger og talekorpusser.
I Danmark har vi Det Centrale Personregister (CPR), som giver et unikt nummer til enhver indbygger. CPR-numrene fungerer som nøgler der gør det let at samle information fra forskellige databaser.
Hvis eksempelvis Jens Hansen fortæller kommunen at han er flyttet fra Nørregade 1 til Søndergade 2, kan andre (f.eks. banken eller hospitalet) tilgå denne information. Der er ingen fare for at det pludselig er Jens Hansen fra Vestergade 3 som får sendt sin post til Søndergade.
I lande uden CPR-lignende systemer (fx Storbritannien) sker den slags ikke automatisk, og hver borger har selv ansvaret for at oplyse om adresseændringer til alle institutioner. Det er besværligt og tidskrævende, og der er altid risiko for fejl.
Danske ord i knibe
Det danske sprog (og os bekendt alle andre sprog) bor stadig i en slags Storbritannien. Der er ingen nøgler til ordene. Hvis man fx har tre ordbøger, en med bøjninger, en med udtaler og en med betydninger, kan man ikke samle disse informationer i én ordbog uden en masse manuelt arbejde. En automatisk sammenfletning af ordbøger kommer til kort når den møder homografer (ord der har forskellige betydninger, men staves på samme måde) som fx kost. Hvis en ordbog anfører at kost har to udtaler, og en anden oplyser at ordet har to betydninger, kan en computer ikke automatisk afgøre hvilken udtale der svarer til hvilken betydning, og den skal have hjælp.
Udviklere af sprogteknologi er ofte nødt til at lave helt nye sprogresurser i stedet for at samle information ind fra eksisterende ordkilder. Det koster tid og penge, og det betyder at mange gode ideer til nye sprogprodukter dør i fødslen og aldrig når til marked.
Den situation har Dansk Sprognævn i samarbejde med DSL (Det Danske Sprog- og Litteraturselskab) og CST (Center for Sprogteknologi, KU) besluttet at gøre noget ved. Med inspiration fra CPR-registeret er vi i gang med at lave et nyt register for det danske ordforråd, hvor hvert ord har sit eget nummer. Vi kalder det Det Centrale Ordregister, eller COR. Arbejdet er støttet økonomisk af Digitaliseringsstyrelsen og løber over tre år.
Lad os præsentere det nye danske COR-register med nogle eksempler:
COR.77837 kost subst. [redskab]
COR.98354 kost subst. [mad]
Når et ord bøjes, får hver bøjningsform sit eget løbenummer. Løbenummeret føjes til COR-nummeret for grundformen (også kaldet ordets lemma). Her er nogle eksempler:
COR.77837.111 kosten sg.best.
COR.98354.111 kosten sg.best.
COR.77837.112 koste pl.ubest.
Bemærk at der ikke findes noget COR.98354.112 da kost i betydningen ’mad’ ingen pluralis har ifølge Retskrivningsordbogen og derfor heller ikke får et tilsvarende COR-løbenummer i pluralis.
Man ser at ord der staves ens, men ikke betyder det samme, let kan skelnes fra hinanden på deres COR-nummer – ganske som Jens Hansen’erne i indledningen med deres forskellige CPR-numre. I COR-registeret kan man altså identificere de ønskede ordformer (og undgå de lumske ligheder), kort sagt effektivt indsamle al relevant information om ordene fra alle ordbøger som er COR-nummereret.
Den første del af COR er færdig
Den 1.10.2022 blev første del af Det Centrale Ordregister udgivet (kan frit downloades fra https://ordregister.dk). Den første udgave dækker hele Retskrivningsordbogen, dvs. forsyner alle Retskrivningsordbogens opslagsord (lemmaer) og bøjningsformer med COR-numre. Allerede denne version kan indbygges i sprogteknologiske programmer og sikre at fx stavekorrektur, undervisningsmidler, søgemaskiner og kunstig intelligens bliver 100 % kompatible med den danske skriftnorm (som fastlagt i Lov om Dansk Retskrivning).
Vi følger Retskrivningsordbogen når vi tildeler COR-numre, og dermed bliver dens princip for hvad et opslagsord er, også COR’s (Retskrivningsordbogen, s. 13 f.):
Opdelingen i opslagsord er principielt uafhængig af ordenes betydning. Det bevirker at ord med forskellig betydning er slået sammen i ét opslagsord hvis de i øvrigt har samme stavemåde, udtale, ordklasse og bøjning, og hvis de indgår i sammensætninger på samme måde.
COR-registerets tre niveauer
COR-registeret består af tre niveauer:
COR’s niveau 1 giver adgang til de mest grundlæggende oplysninger om de danske ord. Her finder man ordenes korrekte stavning og bøjning, oplysning om hvordan de indgår i sammensætninger, og ikke mindst: COR-numrene for Retskrivningsordbogens ord og alle deres bøjningsformer.
COR’s niveau 2 giver adgang til andre autoritative ordbøger med andre typer information om ordene. Som en del af COR-projektet leverer DSL og CST for en betydelig del af det almene danske ordforråd betydningsangivelser samt andre semantiske beskrivelser til brug for dansk sprogteknologi. Disse resurser bliver indekseret i COR’s niveau 2 og bliver dermed tilgængelige for sprogteknologisk udvikling. Vi forventer at disse data vil styrke udviklingen af elektroniske ordbøger, interaktive læremidler, kunstig intelligens og meget andet.
COR’s niveau 2 vil med tiden vokse når flere og flere ordresurser kobles på. Man vil efterhånden kunne finde en mængde andre informationer som ikke er med i Retskrivningsordbogen, fx oplysninger om fagord, fremmedord, navne og ord der er dukket op i det danske sprog for nylig. Desuden er det i niveau 2 at man skal søge oplysning om ordenes betydning, udtale, anvendelser, historiske brug og meget andet.
Hvem kan så bidrage med ordresurser til COR’s niveau 2? Det kan de professionelle sprogmiljøer i Danmark som er udpeget af Kulturministeriet til Dansk Sprognævns repræsentantskab.
Betyder det så at ingen andre end de professionelle sprogmiljøer kan gøre deres sprogresurser COR-kompatible? Langtfra.
COR har plads til alle
Det Centrale Ordregister har også et niveau 3, og på dette niveau kan enhver organisation eller privatperson oprette en COR-resurse. Det kunne for eksempel være en kommune som gerne vil kunne klassificere deres indkomne mails efter emne; det kunne også være et hospital eller et højteknologisk firma med et specialiseret fagsprog der skal understøttes med stavekontrol. Eller det kunne måske være en privat kaninavler der har brug for at holde styr på sine avlskategorier.
Fremtidens danske retskrivning
Når Retskrivningsordbogen kommer i en ny udgave om få år, vil vi publicere alle de nyeste ændringer i COR-format. Ændringer i retskrivningen vil ikke forandre COR-nummeret for et givent opslagsord (lemma).
Hvad betyder det konkret? Lad os forestille os at COR allerede havde eksisteret i 2001 da den 3. udgave af Retskrivningsordbogen blev udgivet. En af ændringerne i forhold til 1996-udgaven var at staveformen linie blev fjernet så kun linje blev tilbage. Ændringer af denne type, som kun angår stavningen, vil ikke forandre COR-numrene, så både den gamle og den nye ordbog vil altså benytte det samme nummer og kalde ordet COR.51632.
Vores ændringsliste ville i dette tilfælde bl.a. indeholde disse oplysninger:
COR-id | RO1996 | RO2001 |
COR.51632 | linie el. linje | linje |
COR.51632.111 sg.best. | linien el. linjen | linjen |
COR.51632.112 pl.ubest. | linier el. linjer | linjer |
Vi gør alle ændringer i den nye Retskrivningsordbog tilgængelige sammen med deres tilhørende COR-numre. Dermed kan alle computerprogrammer automatisk opdatere deres database – sådan at for eksempel stavekontrollen indstiller sig på den nyeste retskrivning i samme øjeblik den er gældende.
Tekstanalyse
Sammen med COR-registerets niveau 1 udgiver Dansk Sprognævn en såkaldt linker. Begge dele kan downloades fra https://ordregister.dk.
En linker er et computerprogram som automatisk kan undersøge en tekst og forsyne hvert tekstord med et COR-nummer. Her er et eksempel:
”Søren så Mette så alle frøene, så han bestilte flere frø så hurtigt han kunne.”
Staveformen så er her benyttet til fire vidt forskellige ord (lemmaer), dels to forskellige verber (former af at se og at så), dels en konjunktion (så han bestilte) og til slut et adverbium (så hurtigt). Ord af denne type der er forskellige, men staves ens, kaldes som før nævnt homografer.
En linker skal forsyne hvert tekstord med det korrekte COR-nummer. Når linkeren ser teksten i eksemplet herover, skal den forsyne hvert af de fire så’er med det rigtige COR-nummer – og det betyder at de fire så-former skal have fire forskellige numre. Når teksten er analyseret på denne måde, bliver den meget lettere at bruge som data i computerprogrammer. Et godt eksempel er automatiske oversættelsesprogrammer, der ofte har problemer med homografer. Prøv fx at bruge Google Translate på eksemplet herover. Når en tekst er forsynet med korrekte COR-numre, er problemet med homograferne løst, og muligheden for at lave en god oversættelse langt bedre.
ROhist
På sigt vil vi tilføje COR-numre til de historiske retskrivningsordbøger i ROhist (https://rohist.dk). Ikke blot vil det forbedre kvaliteten af ROhist, men det bliver også muligt automatisk at omsætte stavningen af en tekst til en ældre eller nyere. Hvis man fx har en moderne tekst og har tildelt COR-numre til alle ord i den ved hjælp af COR-linkeren, kan man bruge ROhist-listerne til at omsætte alle staveformer i teksten til fx 1955-retstavningen (naturligvis med huller i de tilfælde hvor enkelte ord ikke fandtes i den ordbog). Og tilsvarende kan gamle tekster med et snuptag omsættes til moderne stavning.
Danmark på verdenskortet
Det Centrale Ordregister vil gøre dansk til et af de sprog i verden som er bedst forsynet med råmaterialer til sprogteknologi. Som sagt er der os bekendt endnu aldrig publiceret et tilsvarende ordregister på noget sprog i verden. Det bliver spændende at se om vores erfaringer fører til ordregistre på andre sprog, måske i første omgang på de andre nordiske sprog?
Her i Danmark har vi en ambition om at være blandt de stærkeste IT-lande i verden. Med Det Centrale Ordregister har vi i Dansk Sprognævn sammen med vores kolleger i DSL og CST givet vores bidrag.
… og hent din egen kopi af Det Centrale Ordregister (COR) på https://ordregister.dk.