Zadanie #4830
Ponowna analiza morfologiczna danych z NKJP 1.1
Status: | Zamknięty | Start date: | 05 Jul 2013 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | 05 Jul 2013 | |
Assignee: | Anna Gut | % Done: | 100% | |
Category: | - | |||
Target version: | - |
Description
Do testów potrzebne są pliki testowe w postaci plain text. Pliki te powinny znaleźć się w folds/test##.txt
(dla każdego pliku folds/test##.xml
robimy taki plik). Konwersję na czysty tekst należy przeprowadzić przy pomocy corpus2/utils/corptext.py
(wystarczy podać plik we i wy, żadnych dodatkowych przełączników nie trzeba).
Kolejnym krokiem jest przeanalizowanie tych plików na nowo Macą. Wynik powinien znaleźć się w katalogu testana — pliki testana/test##.xml
.
W tym celu użyj narzędzia maca-analyse
. Będzie wyglądać to tak (jeśli nie zapomniałem o czymś):
maca-analyse -qs morfeusz-nkjp-official -o xces < folds/test01.txt > testana/test01.xml
Przełącznik -q oznacza quiet (niezaśmiecanie ekranu komunikatami), przełącznik -s włącza dzielenie na akapity na podstawie wolnych linii (tj. przynajmniej dwóch enterów pod rząd) i jest b. ważny.
morfeusz-nkjp-official
to nazwa konfiguracji Macy, która korzysta z Morfeusza SGJP i zapisuje wynik w tagsecie NKJP.
Oprócz tego potrzebny będzie podobny zabieg odnośnie danych uczących. Załóż katalog reana. Docelowo w nim powinny znaleźć się pliki train01.xml, …, train10.xml — każdy z nich będzie wynikiem ponownej analizy morfologicznej pliku folds/train01.xml itd. Procedura jest tutaj nieco bardziej złożona, bo trzeba zachować tagi wybrane ręcznie przez lingwistę (tam, gdzie disamb="1") i jest na szczęście do niej gotowy skrypt.
Skrypt znajduje się w wcrft/tools i składa się z dwóch części: bashowego uruchamiacza (plik reanalyse) i właściwej implementacji reana.py. W tym uruchamiaczu musisz zmienić nazwę konfiguracji Macy na MACA_CONF=morfeusz-nkjp-official
(albo zrobić pulla, właśnie puszuję zmianę, by tak było domyślnie). Skrypt uruchamia się podając wejście i wyjście jako argumenty, np. ./reanalyse /path/to/NKJP11/folds/train01.xml /path/to/NKJP11/reana/train01.xml
.
Na samym końcu rzuć okiem (np. przy pomocy vima) na wyrywki na pliki wynikowe i upewnij się, że początek i koniec należą wciąż do tego samego tekstu i nic się nie pomieszało. Sprawdź np. czy folds/test03.xml Zaczyna się od tych samych słów, co folds/test03.txt oraz testana/test03.xml. Sprawdź też, czy kończy się tymi samymi słowami (segmentacja mogła się zmienić i tagi). Sprawdź podobnie odnośnie folds/trainKTÓRYŚ.xml i reana/trainKTÓRYŚ.xml.
Related issues
History
#1 Updated by Anna Gut about 10 years ago
- Status changed from Nowy to Przypisany
- % Done changed from 0 to 80
#2 Updated by Anna Gut about 10 years ago
- Status changed from Przypisany to Rozwiązany
- % Done changed from 80 to 100
#3 Updated by Adam Radziszewski about 10 years ago
- Status changed from Rozwiązany to Zamknięty
Wszystko gra