Spring navigation over
Forside/Nyt fra Sprognævnet/Januar 2026/En ny ordtrawler – pingvinord og hyppige stavefejl

En ny ordtrawler – pingvinord og hyppige stavefejl

Vi har til stadighed brug for at finde nye opslagsord i fx Retskrivningsordbogen og Nye ord i dansk 1955 til i dag. Det kan gøres ved manuel excerpering, gerne i kombination med sprogteknologiske værktøjer. I artiklen her præsenteres det vi kalder Ordtrawler 2.0., der er et sprogteknologisk værktøj der kan gennemtrawle store datamængder og dermed finde såvel potentielle nyordskandiater som hyppige stavefejl.

For ca. 15 år siden udviklede Jakob Halskov, tidligere medarbejder i Dansk Sprognævn, Ordtrawleren (Halskov & Jarvad 2009, 2010; Halskov 2010). Ordtrawleren havde til formål automatisk at finde nyordskandidater, dvs. konstruktioner som kandiderer til at blive regnet for nye, altså ord som ikke findes i de gængse ordbøger (fx Retskrivningsordbogen, Den Danske Ordbog, Nudansk Ordbog og Nye ord i dansk 1955 til i dag) eller i Sprognævnets ordsamling. Excerperingsarbejdet, dvs. arbejdet med at finde nye ord og registrere dem, foregår stadig manuelt, men vi har brug for at udvikle værktøjer der kan assistere os, først og fremmest fordi vi simpelthen ikke har mulighed for at gennemlæse alle de tekster der hver dag produceres. Her havde et værktøj som Ordtrawleren mange styrker, men også mange udfordringer. Den havde fx svært ved at håndtere flerordsforbindelser (fx cancel culture), ny brug af gamle ord (fx skyde om filmoptagelse) og nye valensmønstre (fx gro et skæg). I dag er Ordtrawleren skrinlagt. Og dog.

Sprogteknologien har taget syvmileskridt siden 2009, hvor Ordtrawleren lanceredes, og det har givet anledning til at vi i Sprognævnet igen forsøger os med at udvikle et værktøj til automatisk at finde nyordskandidater. Det er imidlertid stadig ikke uden vanskeligheder. Foreløbig foreligger en betaudgave af hvad vi her vil kalde Ordtrawler 2.0. Denne betaudgave har imidlertid et andet sigte end hvad vi her vil kalde Ordtrawler 1.0, altså den Ordtrawler Jakob Halskov udviklede for ca. 15 år siden. Ordtrawler 2.0, som er udviklet af Oliver Rix Johannsen (medforfatter af denne artikel), har til formål at finde nyordskandidater specifikt til Retskrivningsordbogen, ikke nyordskandidater i det hele taget, som Ordtrawler 1.0 havde. Det gør det på sin vis lettere at finde nyordskandidater eftersom nye ord i Retskrivningsordbogen som regel ikke er så nye igen.

I det følgende udlægges det hvordan Ordtrawler 2.0 til forskel fra Ordtrawler 1.0 er bundet op på Retskrivningsordbogen. Derefter skitseres det hvordan Ordtrawler 2.0 fungerer. De første resultater som Ordtrawler 2.0 har produceret, diskuteres derefter, navnlig hvordan og hvorvidt de kan give anledning til tilføjelser og normændringer i Retskrivningsordbogen 5.2, som forventes lanceret i december 2026. Endelig ser vi på hvordan Ordtrawler 2.0 kan forbedres og videreudvikles.

Om at finde nyordskandidater til Retskrivningsordbogen

Arbejdet med at finde nyordskandidater specifikt til Retskrivningsordbogen har både sine fordele og ulemper. Fordelene er at ordene ikke blot skal være hyppige, men at de også skal have været det igennem en længere periode. Og det er en fordel på den måde at meget ”støj” (bl.a. manglende mellemrum, fx haftmasser, eller orddele talt som hele ord pga. linjeskift, fx -ningen, eller helt meningsløse bogstavforbindelser som fx xxxxxxx) aldrig kommer i søgelyset fordi støj sjældent er særligt frekvent. Ulemperne er at ikke alle ord er relevante for Retskrivningsordbogen: Helt regulære sammensætninger og afledninger er som udgangspunkt ikke interessante idet de kan dannes af materiale der allerede findes i Retskrivningsordbogen (se dog nedenfor). Simple, dvs. usammensatte, ord er derimod interessante.

En sammensætning som fx hundehalsbånd er ikke med i ordbogen, men det er hund og halsbånd. Under opslaget hund oplyses man om at det i sammensætninger har formen hunde-, og således kan man uden videre danne hundehalsbånd. Meget almindelige sammensætninger som fx hundehvalp eller sammensætninger der skønnes at kunne give anledning til stavemæssige vanskeligheder som fx morgencomplet, er dog taget med som selvstændige opslagsord (jf. Vejledning til indhold).

Afledninger som fx tilfredshed, der er dannet af tilfreds og -hed, er som udgangspunkt heller ikke taget med som selvstændige opslagsord. Men også her er der undtagelser: Hvis afledningerne er meget frekvente (fx afhængighed), dannet på en særlig måde (fx ægthed) eller kan bøjes i pluralis (fx optræden), er de dog taget med (jf. Vejledning til indhold).

Hertil kommer at proprier (egennavne), herunder personnavne, firmanavne, varemærker osv. principielt falder uden for Retskrivningsordbogens område; sådanne bør staves som bæreren af navnet gør det (jf. § 61 i retskrivningsreglerne).

Der er altså tre kategorier vi ikke er interesserede i: 1) sammensætninger, 2) afledninger og 3) proprier.

Ordtrawler 2.0 beta

Betaudgaven af Ordtrawler 2.0 har som nævnt til formål at finde nyordskandidater til Retskrivningsordbogen. Det ønskede output er en liste af nye ord rangeret efter frekvens, så de mest frekvente ord står øverst på listen, og de mindst frekvente ord står nederst på listen. I det følgende skitseres det hvordan Ordtrawler 2.0 fungerer. Processen er todelt: Først foretages en analyse af teksterne i det korpus man undersøger, dernæst foretages en efterbehandling.

Analyse

Analysen af de enkelte tekster i det undersøgte korpus er foretaget med pythonbiblioteket spaCy1. Proceduren er som følger:

  1. Alle tekster fra det undersøgte korpus indlæses en ad gangen.
  2. Teksten inddeles i tokens (i reglen et ord, men også rene tal, smileyer m.m. er tokens).
  3. Hvis et token hverken er et proprium eller et token der ikke kun består af bogstaver, noteres det i bruttolisten:
    1. Hvis det ikke allerede er på bruttolisten, får det værdien 1 (der angiver antal forekomster af dette token).
    2. Hvis det allerede står på bruttolisten, lægges 1 til antallet af forekomster.

Efterbehandling

Hver ordform på bruttolisten analyseres mhp. at filtrere irrelevante former fra på følgende tre måder:

  1. Kendte ord: Hvis en ordform findes i Det Centrale Ordregisters2 grundresurse (der rummer fuldformer af opslagsordene i Retskrivningsordbogen), filtreres den fra.Fx gnidningsløs, lirekassen, røgvarer
  2. Afledninger: Hvis en ordform kan dannes vha. et præfiks eller et suffiks i Retskrivningsordbogen og en ordform i Det Centrale Ordregister, filtreres den fra.
    Fx cyberkriminalitet (af cyber- og kriminalitet), mammutbog (af mammut- og bog), teenagetræt (af teenage- og træt)
  3. Sammensætninger: Hvis en ordform kan dannes vha. en sammensætningsform og en ordform i Det Centrale Ordregister, filtreres den fra.
    Fx agurkerelish (af agurk(e) og relish), flødeskumskage (af flødeskum(s) og kage), svangerskabsforgiftning (af svangerskab(s) og forgiftning)

De resterende ordformer udgør nettolisten.

I efterbehandlingen håndteres altså to af de tre kategorier vi ikke er interesserede i (sammensætninger og afledninger), og i analysen af den enkelte tekst sorteres proprierne (den tredje kategori) fra.

Ud over den totale forekomst af de enkelte ordformer noteres også forekomsten af ordformerne for hvert år i den undersøgte periode. Ords frekvens alene er som nævnt ikke nok til at kandidere til at være opslagsord i Retskrivningsordbogen; frekvensen skal også være stabil over en længere årrække (jf. ovenfor).

Første resultater

Vi slap Ordtrawler 2.0 beta løs på et korpus af avistekster fra perioden 2014-2023, altså en periode på 10 år. Nettolisten rummede mere end 200.000 kandidater, men det stod hurtigt klart at mange ordformer på listen ikke var egentlige nyordskandidater. Det skyldes en række grunde: Aviskorpusset rummer en del engelsk og tysk tekst (fx citater bragt på originalsproget), så funktionsord som fx the, of, im og auch stod højt på listen. Dernæst var der en del proprier som ikke var fanget i analysen3. Hertil kommer en hel del sammensætninger og afledninger.

Der er mange ord i Retskrivningsordbogen der ikke har oplysninger om sammensætning: Ved ca. 9000 ud af ca. 66.000 opslagsord er der angivet en (eller flere) sammensætningsform(er), fx agurk, der i sammensætninger har formen agurke-, fx agurkesalat. Men størstedelen af opslagsordene, fx by, har altså ingen oplysninger om sammensætningsform. Retskrivningsordbogen medtager desuden fortrinsvis fremmedsproglige præfikser (forstavelser, fx aero-, ferro- og giga-), og kun i meget begrænset omfang suffikser (afledningsendelser, fx -tommers og -værelses/-værelsers). Der er altså mange sammensætninger og afledninger man ikke kan danne ud fra oplysningerne i Retskrivningsordbogen alene.

Derfor foretog vi med hjælp fra en studentermedhjælper4 en grovsortering af nettolisten. De første 5000 ordformer på nettolisten blev gennemgået og sorteret som enten 1) danske simpleksord (herunder afledninger), 2) sammensætninger, 3) udenlandske ord, 4) proprier, 5) støj og 6) andet. Ca. 500 ordformer faldt i den første kategori og ca. 2200 faldt i den anden kategori. Ordformer fra de øvrige kategorier bliver ikke omtalt yderligere her, men kan finde anvendelse i den videre udvikling af Ordtrawleren.

Pingvinord og hyppige stavefejl

En fordel ved automatisk excerpering er at maskiner ikke overser ord som menneskelige excerpister kan gøre. I forbindelse med redaktionen af Retskrivningsordbogens første udgave (1986) fremlagde en redaktør sin prøveredaktion af bogstavet P, og ordet pingvin manglede. Pingvinord er siden blevet en betegnelse for helt almindelige ord som af uransagelige årsager overses af mennesker (Halskov & Jarvad 2009). Sådanne ord er også at finde iblandt de første resultater fra Ordtrawler 2.0. Det gælder fx ordene stomi og parmesan (parmesanost står dog allerede i Retskrivningsordbogen) samt forkortelserne spsk. (spiseskefuld) og tsk. (teskefuld). Det er ord og forkortelser der er helt oplagte at tage med i Retskrivningsordbogen 5.2.

Den automatiske excerpering har også genereret en liste over hyppige stavefejl (sådanne ord ser nye ud for maskinen fordi de ikke er opført i ordbogen med denne staveform), hvoraf en del af de mest frekvente vil blive gennemgået her. En del af de hyppige stavefejl skyldes tidligere normændringer der tilsyneladende ikke er slået helt igennem i den faktiske sprogbrug endnu, fx staveformer som tilbudet (tilbuddet har været enerådende siden 2001) og bolche (dobbeltformen bolche/bolsje blev afskaffet i 2001). Begge ændringer er en del af et større kompleks hvor en række ord har fået obligatorisk dobbeltkonsonant i bøjningsformer, eller har fået ensrettet en stavemåde fra (s)ch eller sj til udelukkende sj. Fordi der netop er tale om en ændring der vedrører en række ord af samme type, er der ikke umiddelbart planer om at genindføre dobbeltformer ved enkeltordene tilbud og bolsje.

De generelle regler som Sprognævnet skal følge ved fastlæggelsen af dansk retskrivning, tager udgangspunkt i traditionsprincippet og sprogbrugsprincippet (Galberg Jacobsen 1997: 3 ff.). Traditionsprincippet siger at stavemåderne af det eksisterende ordforråd principielt ligger fast, bortset fra justeringer som følge af sprogbrugsprincippet. Et element i traditionsprincippet er princippet om at fremmedord der er blevet almindelige i dansk, skrives i overensstemmelse med de regler der gælder for oprindelige danske ord og ældre låne- og fremmedord i dansk. Spørgsmålet er så hvornår et fremmedord er blevet så almindeligt at det skal tilpasses dansk ortografi, og her tager man udgangspunkt i udtale og bøjning. Princippet om fordanskning gælder først og fremmest ord fra græsk, latin og fransk, og ord der udgøres af græske, latinske og franske bestanddele. Efter sprogbrugsprincippet skrives ord og ordformer i dansk i overensstemmelse med den praksis som følges i gode og sikre sprogbrugeres skriftlige sprogbrug.

Fordanskningen af de ”almindelige” latinske, græske og franske fremmedord siger bl.a. at når c udtales som k, skrives det som hovedregel k. Det giver stavemåder som vokal (af latin vocalis), konsonant (af latin consonans) og kulør (af fransk couleur). I praksis har dette princip dog ikke altid været overholdt. Caries (af latin caries) kunne således kun blive stavet med c indtil 1986, hvor dobbeltformen caries/karies blev indført, mens stavemåden kafé/kafe (af fransk café) blev afskaffet i 2001. Principperne er altså ikke nagelfaste, og derfor kunne man godt overveje at indføre en dobbeltform som fx casino/kasino. Kasino stammer fra italiensk casino, der egentlig betyder ’lille hus’, og da traditionsprincippet ikke siger noget eksplicit om fordanskningen af ord fra italiensk, er der ikke umiddelbart noget til hinder for at indføre staveformen casino, der er meget udbredt i almensproget.

Staveformen sclerose for sklerose er ligeledes meget udbredt. Sklerose kommer af græsk skleros, der betyder ’hård’. I fagkredse bruges vist udelukkende en staveform med -c-, fx finder man kun stavemåden sclerosis i Klinisk Ordbog (16. udgave, Munksgaard, 2005), og også Scleroseforeningen skriver deres navn med c. Selvom Sprognævnet tidligere har afvist at indføre staveformen sclerose med henvisning til fordanskningsprincippet, er spørgsmålet om tiden måske er ved at være inde til at indføre staveformen med c.

Hvad angår franske låneord, er der et par stavefejl som man ligeledes kunne overveje at ophøje til norm, nemlig brasserie (for brasseri) og bravour (for bravur). Begge de danske stavemåder følger de gængse fordanskningsprincipper, fx at endelsen -ie bliver til -i (jf. fx jalousi af fransk jalousie og geni af fransk génie). Endelsen findes også i charcuteri, som vist oftest staves uden et -e i endelsen. Det vanskeliggør tingene, for er det rimeligt at man kan skrive brasserie, men ikke charcuterie? Staveformen bravour kunne formentlig relativt nemt indføres ved siden af bravur fordi vi allerede har dobbeltform ved troubadour/trubadur.

Maraton har været opslagsord i Retskrivningsordbogen siden 1996 og altid i denne form. Ordet stammer egentlig fra den græske by Marathon, hvorfra et sendebud løb de ca. 40 kilometer til Athen. Ordet staves ofte med -th på dansk, og også her kunne man – også i betragtning af at der er tale om et stednavn – overveje at indføre stavemåden marathon. Triatlon, biatlon og duatlon skulle i givet fald tilsvarende kunne skrives triathlon, biathlon og duathlon.

Der er andre stavefejl end de her nævnte. Nogle af dem er velkendte, fx autencitet (for autenticitet,) og pal(l)ette (for palet). Begge fejltyper er behandlet i Nyt fra Sprognævnet (2013/3 og 2017/1), hvor det både forklares hvordan fejlene er opstået (det har med udtalen at gøre), og hvorfor de ikke umiddelbart kan ophøjes til norm. For autencitets vedkommende skyldes det at man derved ville ”få uorden i et ellers velordnet system”, hvor en række adjektiver der ender på -isk, har et tilsvarende substantiv der ender på -icitet, fx elektriskelektricitet. Og for palettes vedkommende skyldes det at stavemåden palette primært bruges i overført betydning (fx en palet eller palette af muligheder), mens den konkrete (maler)palet ofte skrives som anført her. Anderledes forholder det sig med fejlen omstændig for omstændelig. Denne stavefejl er behandlet i Nyt fra Sprognævnet 2005/2, og her er konklusionen at omstændig forekommer ganske hyppigt både i skrift og tale, også blandt gode og sikre sprogbrugere, og at vi derfor kunne overveje at indføre denne form i en kommende udgave af Retskrivningsordbogen. Det vil vi stadig overveje.

Alle de overvejelser som vi her har fremlagt til ændrede staveformer, skal dog forelægges for fagrådet for retskrivning inden der kan træffes nogen beslutninger.

Videreudvikling af Ordtrawler 2.0 – og flere affikser og sammensætningsformer i Retskrivningsordbogen

Som de første resultater viste, er der mange sammensætninger og afledninger der ikke kan dannes ud fra de eksisterende oplysninger i Retskrivningsordbogen. Et oplagt første skridt i videreudviklingen af en Ordtrawler 2.0 er derfor at tilføje flere sammensætningsformer, præfikser og suffikser til Retskrivningsordbogen. Derfor planlægger vi da også at tilføje sådanne til Retskrivningsordbogen 5.2.

Ordtrawler 2.0 kan også forbedres på andre punkter. I sin nuværende form sker der ingen lemmatisering5 (jf. ovenfor), og det bevirker at bøjningsformer af det samme lemma tælles som separate ordformer. Der er også bøjningsformer der ikke er med i hverken Retskrivningsordbogen eller Det Centrale Ordregister, som er ganske hyppige: Det gælder især genitiv af adjektiver i pluralis og/eller bestemt form. Det ser man når adjektivet er anvendt substantivisk, fx det er altid de unges skyld. Netop denne form overvejer vi at tage med i Det Centrale Ordregister.

Endelig er det på sigt planen at Ordtrawleren ikke blot skal finde nyordskandidater til Retskrivningsordbogen, men også til nyordsordbogen Nye ord i dansk 1955 til i dag og til Ordsamlingen. Her er der som nævnt andre udfordringer end med Retskrivningsordbogen; navnlig er man ikke hjulpet af at ordene skal være så frekvente som i denne ordbog. Ikke desto mindre vil vi trække på de erfaringer Jakob Halskov gjorde sig da han udviklede Ordtrawler 1.0. Vi vil fx overveje at inkludere nyhedsmarkeringer i Ordtrawleren, dvs. signaler i teksten om at et ord er nyt. Det kan fx være såkaldt eller såkaldte, brug af citationstegn eller kursiv (Halskov & Jarvad 2010). De frasorterede resultater (udenlandske ord, støj mv.) skal også indbygges i Ordtrawleren, så de fremover frasorteres automatisk. Endelig er det ønskværdigt at kunne lave mere sofistikeret statistisk analyse end blot antal forekomster pr. år, fx en tidsrækkeanalyse hvor kometord (ord der er meget frekvente i en kort periode, men derefter forsvinder igen, jf. fx mange af de ord der dukkede op under coronapandemien) kan markeres som sådanne.

Målet er at Ordtrawleren kan køre mere eller mindre af sig selv, fx en gang om ugen eller en gang om måneden, og at resultaterne herfra så kan gennemgås manuelt. Nye ord kan derefter glide ind i Ordsamlingen, Nye ord i dansk 1955 til i dag eller Retskrivningsordbogen efter at være gennemgået manuelt. Men vejen dertil er endnu lang; Ordtrawleren foreligger endnu kun i en betaudgave, og der skal laves mange forbedringer før målet er nået.

Noter

1 spaCy rummer statistiske modeller for dansk (Explosion u.d.). Modellen vi har anvendt, er baseret på The Danish UD Treebank (Johannsen, Alonso & Plank 2015), der er konverteret til Universal Dependencies fra The Danish Dependency Treebank (Kromann 2003), der igen er baseret på det morfosyntaktisk taggede PAROLE-korpus (Keson 1998). Vi anvendte den største model (dog ikke transformermodellen), mere præcist komponenterne til at foretage tokenization (tokenisering, oplyst præcision på 100 %) og named entity recoqnition (NER, genkendelse af proprier, oplyst præcision på 82-83 %). Øvrige komponenter til fx ordklassegenkendelse og lemmatisering anvendtes ikke for at mindske risikoen for fejl.

2 Læs mere om Det Centrale Ordregister (COR) her: https://dsn.dk/forskning/sprogteknologi-og-fagsprog/cor/

3 Den komponent i den anvendte model der identificerer proprier (NER, se note 1), har en oplyst præcision på 82-83 %, så det var forventeligt.

4 Tak til My Schødts Henriksen.

5 Ved lemmatisering opfører man grundformen af et ord, fx hest af hestene.

Referencer

En palette af muligheder? Nyt fra Sprognævnet 2017/1.

Explosion (u.d.). Danish. URL: https://spacy.io/models/da (lokaliseret 3/10 2025).

Galberg Jacobsen, Henrik (1997): Ordnede forhold. Om retskrivningsloven og sprognævnsloven. Nyt fra Sprognævnet 1997/3.

Halskov, Jakob & Pia Jarvad (2009). Om menneskers og maskiners tilgang til excerpering af sproglige nydannelser – en diskussion og en systemevaluering. Nyt fra Sprognævnet 2009/4.

Halskov, Jakob & Pia Jarvad (2010). Manuel og maskinel excerpering af neologismer. NyS – Nydanske Sprogstudier 38, 39-68.

Halskov, Jakob (2010). Halvautomatisk udvælgelse af lemmakandidater til en nyordsordbog. LexicoNordica 17, 73-97.

Jervelund, Anita Ågerup (2001): Postbuddet, publikummet og pyjamassen. Dobbeltskrivning af konsonanter i bøjningsformer. Nyt fra Sprognævnet 2001/4.

Johannsen, Anders, Héctor Martínez Alonso & Barbara Plank (2015). Universal Dependencies for Danish. Proceedings of the Fourteenth International Workshop on Treebanks and Linguistic Theories (TLT), 157-167.

Keson, Britt (1998). Vejledning til det danske morfosyntaktisk taggede PAROLE-korpus. Det Danske Sprog- og Litteraturselskab.

Kromann, Matthias Trautner (2003). The Danish Dependency Treebank and the DTAG Treebank Tool. Proceedings of the Second International Workshop on Treebanks and Linguistic Theories (TLT), 217-220.

Schack, Jørgen (2001): Ændringer i opslagsords staveform eller ordform. Nyt fra Sprognævnet 2001/4.

Schack, Jørgen (2013): Auten(ti)citet. Nyt fra Sprognævnet 2013/3.

Omstændelig eller omstændig? Nyt fra Sprognævnet 2005/2.

Vil du citere denne artikel?

Kopier denne tekst og indsæt den i din litteraturliste:

Rix Johannsen, Oliver & Margrethe Heidemann Andersen, 2026: En ny ordtrawler – pingvinord og hyppige stavefejl. I: Nyt fra Sprognævnet 2026/1.