Tryb convert

Wstęp

Tryb convert służy głównie do konwersji formatu danych wejściowych wraz z generowaniem dodatkowych cech (format iob), jednak
dodatkowo za jego pomocą można dokonać konwersji kanałów anotacji (parametr -conversion).

Sposób wywołania

liner2-cli convert -i format -f plik -o format -t plik -conversion konwerter

Parametr -conversion może wystąpić kilka razy. Wtedy konwertery będą uruchamiane sekwencyjne.

Konwertery

annotation-mapping:{plik z mapowaniem}

Zamienia nazwy anotacji zgodnie z określonym plikiem z mapowaniem. Plik z mapowaniem ma postać:

nazwa_źródłowe -> nazwa_docelowa

gdzie nazwa_źródłowa może być wyrażeniem regularnym (np. nam_.*) lub pełną nazwą (np. nam_liv_person).

Przykładowy plik z mapowaniem:

nam_org_* -> nam_org
nam_loc_* -> nam_loc
nam_liv_person -> nam_person

annotation-remove-nested

Usuwa anotacje znajdujące się wewnątrz innych anotacji o tej samej nazwie.

annotation-filter-by-regex:{wyrażenie regularne}

Usuwa anotacje nie pasujące do podanego wyrażenia.

annotation-flatten:{plik z listą kategorii}

Usuwa zagnieżdżone anotacje. Kolejność anotacji w pliku oznacza ważność kategorii anotacji.
Dla anotacji tej samej długości przypisanych do tej samej sekwencji tokenów, kategoria, która wystąpiła jako pierwsza będzie nadpisywała pozostałe z listy.
Konwerter usuwa zagnieżdżone anotacje dla określonych kategorii anotacji. Zagnieżdżenia z innymi typami (spoza listy) nie są rozpatrywane.

expand-features:{plik z templatem}

Rozszerza wektor cech tokenów według podanego template'u.
Efekty na wyjściu widoczne są tylko dla formatów z pełną listą cech (iob, arff).
Dodatkowo wymagane jest wcześniejsze wygenerowanie wszystkich cech wykorzystanych w templacie.

Przykłady

Konweruje cały korpus KPWr zamieniając wszystkie anotacje nazw na nam i usuwa zagnieżdżenia:

liner2-cli convert -i batch:ccl -f kpwr-1.1/index_names.txt -o batch:ccl -t kpwr-1.1-nam/index_names.txt -conversion annotation-mapping:mapowanie.txt -coversion annotation-remove-nested

Treść pliku mapowanie.txt

nam_.* -> nam

Usunięcie zagnieżdżeń w korpusie zmapowanym kpwr-mapping-muc

/liner2-cli convert -f kpwr-1.2.6-disamb-mapped/index_names_100.txt -i batch:ccl -o batch:ccl -t ~/korpusy/test/index.txt -conversion annotation-flatten:flatten.txt 

Treść pliku flatten.txt

nam_adj
nam_eve
nam_fac
nam_liv
nam_loc
nam_num
nam_org
nam_oth
nam_pro

Rozszerzenie zbioru cech (cechy i template w załącznikach):

./liner2-cli convert -F /features-56nam.txt -f kpwr-1.2.5-disamb/wikipedia/00099883.xml -o iob -conversion expand-features:template-56nam.txt -t ~/Desktop/nam0099883.iob

features-56nam.txt Magnifier - cechy do wygenerowania (2.46 KB) Michał Krautforst, 22 Sep 2014 13:00

template-56nam.txt Magnifier - rozszerzający je template (1.53 KB) Michał Krautforst, 22 Sep 2014 13:00