Stats

Opis

Oblicza i wypisuje statystyki korpusu, które uwzględniają: liczbę dokumentów, liczbę zdań, liczbę tokenów oraz liczbę anotacji.

Parametry i sposób wywołania

usage: ./liner2-cli stats [options]
 -f,--input_file <filename>   path to a file to read
 -i,--input_format <format>   input format [iob, ccl, plain, plain:maca, plain:wcrft, tei,
                              batch:{format}]
 -v,--verbose                 print help

Przykładowe wywołanie

./liner2-cli stats -i batch:ccl -f /nlp/corpora/pwr/kpwr-release/kpwr-1.2-disamb-rc1/index.list

Wynik:

           Documents:       1631
           Sentences:      28680
              Tokens:     447576
         Annotations:     197251