Zadanie #4829
Przygotować dane do testowania tagera na NKJP 1.1
Status: | Zamknięty | Start date: | 04 Jul 2013 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | Anna Gut | % Done: | 100% | |
Category: | - | |||
Target version: | - |
Description
Dane już podzielone na foldy znajdziesz w sftp://share@nlp.pwr.wroc.pl/share/korpusy/nkjp/for_chunker/folds/nkjp-11-semheads-ccl-corpus-folds.7z
Tamte dane są w formacie CCL, zawierają też anotacje składniowe, których tutaj nie będziemy używać.
Załóż katalog NKJP-11, w nim katalog ccl-semhead-folds
. Przenieś tam wszystkie pliki xml. Załóż też katalog folds
na dane w formacie xces.
Przekonwertuj do formatu XCES wszystkie pliki za pomocą corpus-get. Każde wywołanie zaczynać się będzie od corpus-get -C -t nkjp -i ccl -o xces
.
Procedura powinna zakończyć się powstaniem w katalogu NKJP-11/folds plików test01.xml, …, test10.xml i, analogicznie, train01.xml, …, train10.xml.
Dane w katalogu folds są jedynie przekonwertowane, ale nie są poddane ponownej analizie.
Related issues
History
#1 Updated by Adam Radziszewski about 10 years ago
W katalogu NKJP-11 zrób jeszcze plik tekstowy i zapisz tam wersję Morfeusza, która jest zainstalowana. Możesz skopiować cały tekst, który wypisuje morfeusz po uruchomieniu jego toola (polecenie morfeusz
).
#2 Updated by Anna Gut about 10 years ago
- Status changed from Nowy to Gotowy
- % Done changed from 0 to 100
#3 Updated by Adam Radziszewski about 10 years ago
- Status changed from Gotowy to Zamknięty