Zadanie #4397

Przetestować tager w wariancie bez guessera

Added by Adam Radziszewski almost 11 years ago. Updated almost 11 years ago.

Status:ZamkniętyStart date:11 Oct 2012
Priority:NormalnyDue date:
Assignee:Paweł Orłowicz% Done:

0%

Category:-
Target version:-

Description

Najpierw trzeba przeanalizować pliki NKJP-10/folds/test??.txt za pomocą macy bez guessera (morfeusz-nkjp-official, najlepiej na bauerze). W ten sposób powstałe pliki możesz wrzucić do katalogu testana_ng na spocku.

Na tym odpalić wyuczony tager, otagować do plików wcrft_reana_ng/tagd##.xml

Tager testuje się skryptem tagger-eval.py z repo corpus2:
PYTHONIOENCODING=utf8 corpus2/utils/tagger-eval.py wcrft_reana_ng/tag??.xml folds/test??.xml | tee r_wcrft_reana_ng.txt

Uśredniona wartość dolnego ograniczenia trafności jest na końcu jako AVG weak corr lower bound. Wartości cząstkowe (dla poszczególnych foldów) możesz wyciągnąć grepem — są opisane jako WC_LOWER. To będzie przydatne do sprawdzenia istotności statystycznej różnicy.

Analogiczne wyniki dla tagera WCRFT uruchamianego z guesserem załączam tutaj jako r_wcrft_reana.txt (to są te same liczby, co z publikacji i wiki Evaluation).

History

#1 Updated by Adam Radziszewski almost 11 years ago

  • Status changed from Nowy to Zamknięty

To już jest w nowym configu nkjp_s2.ini.

Also available in: Atom PDF