Det danske gigawordkorpus
Danish Gigaword
Under udviklingen af sprogteknologi er der ofte brug for meget store, forskelligartede korpusser.
Det danske gigawordkorpus er det første frit tilgængelige danske korpus der både er så stort og indeholder mange forskellige slags tekst at det kan bruges som standardkorpus for sprogteknologien.
Som navnet antyder er der ca. en milliard ord i korpusset, der består af mange mindre tekstsamlinger. Teksterne kommer blandt andet fra folketinget, hestenettet og wikipedia; i alt er der 25 forskellige kilder.
Interesserede kan få mere at vide om korpusset på https://gigaword.dk/, hvor det også kan hentes.
Læs mere om projektet:
Sprognævnet arbejder med sprogteknologi og fagsprog
Mobiltelefoner, robotter, selv biler bliver bedre og bedre til at håndtere sprog og verbal kommunikation. Sprognævnet arbejder med det sproglige grundlag.
Sprognævnet følger sprogets udvikling
Vi løser vores opgave med at følge sprogets udvikling ved bl.a. at forske i ordforråd og grammatik i både det moderne og det ældre sprog.