Tryb convert¶
Wstęp¶
Tryb convert służy głównie do konwersji formatu danych wejściowych wraz z generowaniem dodatkowych cech (format iob), jednak
dodatkowo za jego pomocą można dokonać konwersji kanałów anotacji (parametr -conversion).
Sposób wywołania
liner2-cli convert -i format -f plik -o format -t plik -conversion konwerter
Parametr -conversion może wystąpić kilka razy. Wtedy konwertery będą uruchamiane sekwencyjne.
Konwertery¶
annotation-mapping:{plik z mapowaniem}
Zamienia nazwy anotacji zgodnie z określonym plikiem z mapowaniem. Plik z mapowaniem ma postać:
nazwa_źródłowe -> nazwa_docelowa
gdzie nazwa_źródłowa może być wyrażeniem regularnym (np. nam_.*) lub pełną nazwą (np. nam_liv_person).
Przykładowy plik z mapowaniem:
nam_org_* -> nam_org nam_loc_* -> nam_loc nam_liv_person -> nam_person
annotation-remove-nested
Usuwa anotacje znajdujące się wewnątrz innych anotacji o tej samej nazwie.
annotation-filter-by-regex:{wyrażenie regularne}
Usuwa anotacje nie pasujące do podanego wyrażenia.
annotation-flatten:{plik z listą kategorii}
Usuwa zagnieżdżone anotacje. Kolejność anotacji w pliku oznacza ważność kategorii anotacji.
Dla anotacji tej samej długości przypisanych do tej samej sekwencji tokenów, kategoria, która wystąpiła jako pierwsza będzie nadpisywała pozostałe z listy.
Konwerter usuwa zagnieżdżone anotacje dla określonych kategorii anotacji. Zagnieżdżenia z innymi typami (spoza listy) nie są rozpatrywane.
expand-features:{plik z templatem}
Rozszerza wektor cech tokenów według podanego template'u.
Efekty na wyjściu widoczne są tylko dla formatów z pełną listą cech (iob, arff).
Dodatkowo wymagane jest wcześniejsze wygenerowanie wszystkich cech wykorzystanych w templacie.
Przykłady¶
Konweruje cały korpus KPWr zamieniając wszystkie anotacje nazw na nam i usuwa zagnieżdżenia:
liner2-cli convert -i batch:ccl -f kpwr-1.1/index_names.txt -o batch:ccl -t kpwr-1.1-nam/index_names.txt -conversion annotation-mapping:mapowanie.txt -coversion annotation-remove-nested
Treść pliku mapowanie.txt
nam_.* -> nam
Usunięcie zagnieżdżeń w korpusie zmapowanym kpwr-mapping-muc
/liner2-cli convert -f kpwr-1.2.6-disamb-mapped/index_names_100.txt -i batch:ccl -o batch:ccl -t ~/korpusy/test/index.txt -conversion annotation-flatten:flatten.txt
Treść pliku flatten.txt
nam_adj nam_eve nam_fac nam_liv nam_loc nam_num nam_org nam_oth nam_pro
Rozszerzenie zbioru cech (cechy i template w załącznikach):
./liner2-cli convert -F /features-56nam.txt -f kpwr-1.2.5-disamb/wikipedia/00099883.xml -o iob -conversion expand-features:template-56nam.txt -t ~/Desktop/nam0099883.iob