Det danske gigawordkorpus

Danish Gigaword

Forside/Forskning/Store tekstsamlinger/Det danske gigawordkorpus

Under udviklingen af sprogteknologi er der ofte brug for meget store, forskelligartede korpusser.

Det danske gigawordkorpus er det første frit tilgængelige danske korpus der både er så stort og indeholder mange forskellige slags tekst at det kan bruges som standardkorpus for sprogteknologien.

Som navnet antyder er der ca. en milliard ord i korpusset, der består af mange mindre tekstsamlinger. Teksterne kommer blandt andet fra folketinget, hestenettet og wikipedia; i alt er der 25 forskellige kilder.

Interesserede kan få mere at vide om korpusset på https://gigaword.dk/, hvor det også kan hentes.

Læs mere om projektet:

Derczynski, Leon et al (2021) The Danish Gigaword Corpus, NoDaLiDa-23 (åbner pdf-fil)
Henrichsen, Peter Juel (2021) Glemte ord. En undersøgelse af H.C. Ørsteds nyord og deres plads i nudansk. I NyS, Nydanske Sprogstudier 60.