Zadanie #4397
Przetestować tager w wariancie bez guessera
Status: | Zamknięty | Start date: | 11 Oct 2012 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | Paweł Orłowicz | % Done: | 0% | |
Category: | - | |||
Target version: | - |
Description
Najpierw trzeba przeanalizować pliki NKJP-10/folds/test??.txt za pomocą macy bez guessera (morfeusz-nkjp-official, najlepiej na bauerze). W ten sposób powstałe pliki możesz wrzucić do katalogu testana_ng na spocku.
Na tym odpalić wyuczony tager, otagować do plików wcrft_reana_ng/tagd##.xml
Tager testuje się skryptem tagger-eval.py z repo corpus2:
PYTHONIOENCODING=utf8 corpus2/utils/tagger-eval.py wcrft_reana_ng/tag??.xml folds/test??.xml | tee r_wcrft_reana_ng.txt
Uśredniona wartość dolnego ograniczenia trafności jest na końcu jako AVG weak corr lower bound. Wartości cząstkowe (dla poszczególnych foldów) możesz wyciągnąć grepem — są opisane jako WC_LOWER. To będzie przydatne do sprawdzenia istotności statystycznej różnicy.
Analogiczne wyniki dla tagera WCRFT uruchamianego z guesserem załączam tutaj jako r_wcrft_reana.txt (to są te same liczby, co z publikacji i wiki Evaluation).
History
#1 Updated by Adam Radziszewski almost 11 years ago
- Status changed from Nowy to Zamknięty
To już jest w nowym configu nkjp_s2.ini.