Zadanie #4829

Przygotować dane do testowania tagera na NKJP 1.1

Added by Adam Radziszewski about 10 years ago. Updated about 10 years ago.

Status:ZamkniętyStart date:04 Jul 2013
Priority:NormalnyDue date:
Assignee:Anna Gut% Done:

100%

Category:-
Target version:-

Description

Dane już podzielone na foldy znajdziesz w sftp://share@nlp.pwr.wroc.pl/share/korpusy/nkjp/for_chunker/folds/nkjp-11-semheads-ccl-corpus-folds.7z

Tamte dane są w formacie CCL, zawierają też anotacje składniowe, których tutaj nie będziemy używać.

Załóż katalog NKJP-11, w nim katalog ccl-semhead-folds. Przenieś tam wszystkie pliki xml. Załóż też katalog folds na dane w formacie xces.
Przekonwertuj do formatu XCES wszystkie pliki za pomocą corpus-get. Każde wywołanie zaczynać się będzie od corpus-get -C -t nkjp -i ccl -o xces.

Procedura powinna zakończyć się powstaniem w katalogu NKJP-11/folds plików test01.xml, …, test10.xml i, analogicznie, train01.xml, …, train10.xml.

Dane w katalogu folds są jedynie przekonwertowane, ale nie są poddane ponownej analizie.


Related issues

Precedes WCRFT - Zadanie #4830: Ponowna analiza morfologiczna danych z NKJP 1.1 Zamknięty 05 Jul 2013 05 Jul 2013

History

#1 Updated by Adam Radziszewski about 10 years ago

W katalogu NKJP-11 zrób jeszcze plik tekstowy i zapisz tam wersję Morfeusza, która jest zainstalowana. Możesz skopiować cały tekst, który wypisuje morfeusz po uruchomieniu jego toola (polecenie morfeusz).

#2 Updated by Anna Gut about 10 years ago

  • Status changed from Nowy to Gotowy
  • % Done changed from 0 to 100

#3 Updated by Adam Radziszewski about 10 years ago

  • Status changed from Gotowy to Zamknięty

Also available in: Atom PDF