Konsten att bedriva svensk ordforskning utan att kränka upphovsrätten

Authors

  • Gerlof Bouma
  • Markus Forsberg
  • Justyna Sikora
  • Emma Sköldberg

DOI:

https://doi.org/10.3384/ecp205022

Keywords:

ordforskning, ordvektorer, ordstatistik, lexikografi, tidningstext

Abstract

Vi beskriver KB-labb och Språkbanken Texts samarbete för att underlätta ordforskning på de upphovsrätts-skyddade korpusar som finns i Kungliga bibliotekets samlingar. Satsningen har hittils lett till två öppna datasamlingar, Kubord 1 och 2, som ger tillgång till ordstatistik och ordsamförekomststatistik. Vi beskriver även Kubord-fastText, en samling vektormodeller som är baserade på samma korpusar, som är under utveckling.

Downloads

Published

2024-01-04