Det danske gigawordkorpus
Danish Gigaword
Under udviklingen af sprogteknologi er der ofte brug for meget store, forskelligartede korpusser.
Det danske gigawordkorpus er det første frit tilgængelige danske korpus der både er så stort og indeholder mange forskellige slags tekst at det kan bruges som standardkorpus for sprogteknologien.
Som navnet antyder er der ca. en milliard ord i korpusset, der består af mange mindre tekstsamlinger. Teksterne kommer blandt andet fra folketinget, hestenettet og wikipedia; i alt er der 25 forskellige kilder.
Interesserede kan få mere at vide om korpusset på https://gigaword.dk/, hvor det også kan hentes.
Læs mere om projektet: