Zadanie #4830

Ponowna analiza morfologiczna danych z NKJP 1.1

Added by Adam Radziszewski about 10 years ago. Updated about 10 years ago.

Status:ZamkniętyStart date:05 Jul 2013
Priority:NormalnyDue date:05 Jul 2013
Assignee:Anna Gut% Done:

100%

Category:-
Target version:-

Description

Do testów potrzebne są pliki testowe w postaci plain text. Pliki te powinny znaleźć się w folds/test##.txt (dla każdego pliku folds/test##.xml robimy taki plik). Konwersję na czysty tekst należy przeprowadzić przy pomocy corpus2/utils/corptext.py (wystarczy podać plik we i wy, żadnych dodatkowych przełączników nie trzeba).

Kolejnym krokiem jest przeanalizowanie tych plików na nowo Macą. Wynik powinien znaleźć się w katalogu testana — pliki testana/test##.xml.

W tym celu użyj narzędzia maca-analyse. Będzie wyglądać to tak (jeśli nie zapomniałem o czymś):

maca-analyse -qs morfeusz-nkjp-official -o xces < folds/test01.txt > testana/test01.xml

Przełącznik -q oznacza quiet (niezaśmiecanie ekranu komunikatami), przełącznik -s włącza dzielenie na akapity na podstawie wolnych linii (tj. przynajmniej dwóch enterów pod rząd) i jest b. ważny.

morfeusz-nkjp-official to nazwa konfiguracji Macy, która korzysta z Morfeusza SGJP i zapisuje wynik w tagsecie NKJP.

Oprócz tego potrzebny będzie podobny zabieg odnośnie danych uczących. Załóż katalog reana. Docelowo w nim powinny znaleźć się pliki train01.xml, …, train10.xml — każdy z nich będzie wynikiem ponownej analizy morfologicznej pliku folds/train01.xml itd. Procedura jest tutaj nieco bardziej złożona, bo trzeba zachować tagi wybrane ręcznie przez lingwistę (tam, gdzie disamb="1") i jest na szczęście do niej gotowy skrypt.
Skrypt znajduje się w wcrft/tools i składa się z dwóch części: bashowego uruchamiacza (plik reanalyse) i właściwej implementacji reana.py. W tym uruchamiaczu musisz zmienić nazwę konfiguracji Macy na MACA_CONF=morfeusz-nkjp-official (albo zrobić pulla, właśnie puszuję zmianę, by tak było domyślnie). Skrypt uruchamia się podając wejście i wyjście jako argumenty, np. ./reanalyse /path/to/NKJP11/folds/train01.xml /path/to/NKJP11/reana/train01.xml.

Na samym końcu rzuć okiem (np. przy pomocy vima) na wyrywki na pliki wynikowe i upewnij się, że początek i koniec należą wciąż do tego samego tekstu i nic się nie pomieszało. Sprawdź np. czy folds/test03.xml Zaczyna się od tych samych słów, co folds/test03.txt oraz testana/test03.xml. Sprawdź też, czy kończy się tymi samymi słowami (segmentacja mogła się zmienić i tagi). Sprawdź podobnie odnośnie folds/trainKTÓRYŚ.xml i reana/trainKTÓRYŚ.xml.


Related issues

Follows WCRFT - Zadanie #4829: Przygotować dane do testowania tagera na NKJP 1.1 Zamknięty 04 Jul 2013
Precedes WCRFT - Zadanie #4832: Przetestować WCRFT na danych z NKJP 1.1 Zamknięty 06 Jul 2013 06 Jul 2013

History

#1 Updated by Anna Gut about 10 years ago

  • Status changed from Nowy to Przypisany
  • % Done changed from 0 to 80

#2 Updated by Anna Gut about 10 years ago

  • Status changed from Przypisany to Rozwiązany
  • % Done changed from 80 to 100

#3 Updated by Adam Radziszewski about 10 years ago

  • Status changed from Rozwiązany to Zamknięty

Wszystko gra

Also available in: Atom PDF