Stats

Opis

Oblicza i wypisuje statystyki korpusu, które uwzględniają: liczbę dokumentów, liczbę zdań, liczbę tokenów oraz liczbę anotacji.

Parametry i sposób wywołania

usage: ./liner2-cli stats [options]
 -f,--input_file <filename>  path to a file to read
 -i,--input_format <format>  input format [iob, ccl, plain, plain:maca, plain:wcrft, tei,
               batch:{format}]
 -v,--verbose         print help

Przykładowe wywołanie

./liner2-cli stats -i batch:ccl -f /nlp/corpora/pwr/kpwr-release/kpwr-1.2-disamb-rc1/index.list

Wynik:

      Documents:    1631
      Sentences:   28680
       Tokens:   447576
     Annotations:   197251