Lista frekwencyjna

(Uwaga! Strona w budowie / Under construction)

Na tej stronie można ściągnąc listy frekwencyjne wydobyte z dużych korpusów tekstów. W skład tekstów wchodzą m.in. Korpus IPI PAN, Korpus Rzeczpospolitej, Wikipedię (zrzut z początku 2010 roku) i zbiór dużych dokumentów ściągniętych z Internetu. Razem korpusy mają około 1.8 miliarda tokenów. Do wygenerowania listy frekwencyjnej zostały wykorzystane narzędzia wchodzodzące w skład systemu SuperMatrix (Broda and Piasecki 2011).


Listę frekwencyjną udostępniamy w dwóch postaciach:

  • frequency_list_orth.txt - zawiera klasę gramatyczną, formę podstawową, formę tekstową i częstość w korpusach
  • frequency_list_base.txt - zawiera formy podstawowe słów i ich częstości w korpusach

Uwaga! Dane udostępniamy na licencji Creative Commons (CC BY-NC-SA 3.0)


References



Attachments:

Download this file (frequency_list_base.7z)frequency_list_base.7z[ ]6330 Kb
Download this file (frequency_list_orth.7z)frequency_list_orth.7z[ ]20277 Kb