Annotations¶
Parametry¶
usage: ./liner2-cli annotations [options] -a,--annotation_features <annotation_features> a file with a list of annotation features -f,--input_file <filename> path to a file to read -i,--input_format <format> input format [iob, ccl, plain, plain:maca, plain:wcrft, tei, batch:{format}] -T,--types <types> a file with a list of annotation name patterns -t,--output_file <filename> path to an output file -v,--verbose print help
Definicja listy cech do opisu anotacji¶
Zestawienie cech¶
Definicja | Opis |
text | Forma tekstowa całej anotacji |
base:N | |
malt:PATH:DISTANCE:TYPE | Forma bazowa słowa przesuniętego o N pozycji względem bieżącej pozycji |
closest-base:N:POS | Forma bazowa N-tego najbliższego słowa o podanej kategorii gramatycznej POS. Dla N<0 jet st to najbliższe słowo występujące przed anotacją, dla N>0 występujące po anotacji. |
ne-first-base:N:POS | Forma bazowa N-tego słowa o podanej klasie gramatycznej POS występująca wewnątrz anotacji. Jeżeli N<0 to słowo szukane jest od końca, jeżeli N>0 to słowo szukane jest od początku anotacji. |
dict:FILENAME | |
head:CECHA ŹRÓDŁOWA |
Szczegółowy opis cech¶
base:N
Forma bazowa słowa przesuniętego o N pozycji względem bieżącej pozycji.
malt:PATH:DISTANCE:TYPE
gdzie:
- PATH to ścieżka do modelu,
- DISTANCE to odległość od anotacji.
- TYPE to jedna z wartości:
- base — forma bazowa słowa nadrzędnego,
- relation — typ relacji z elementem nadrzędnym,
Analiza zależnościowa powinna być wykonana na zdaniu po zwinięciu rozpoznanych anotacji do jednego tokenu (tak jak to było robione w Serelu).
DISTANCE o wartości 1 oznacza bezpośredni element nadrzędny anotacji. Odległość 2 oznacza element nadrzędny bezpośredniego elementu nadrzędnego anotacji, itd. Jeżeli DISTANCE jest większy niż liczba elementów nadrzędnych to cecha przyjmuje wartość NULL.
Przy generowaniu cech należy zwrócić uwagę, aby model do analizy zależnościowej był wczytywany raz oraz analiza dla poszczególnych zdań była wykonywana także raz. Możliwe będzie zdefiniowanie kilku cech bazujących maltowych, np.
malt:skladnica_liblinear_stackeager_final.mco:1:base malt:skladnica_liblinear_stackeager_final.mco:1:relation malt:skladnica_liblinear_stackeager_final.mco:2:base malt:skladnica_liblinear_stackeager_final.mco:2:relation
closest-base:N:POS
Forma bazowa N-tego najbliższego słowa o podanej kategorii gramatycznej POS. Dla N<0 jet st to najbliższe słowo występujące przed anotacją, dla N>0 występujące po anotacji.
PRZYKŁAD
Wycieczka udała się nad wodospad [Niagara] położonego na granicy USA i Kanady. closest-base:-1:subst -> wodospad closest-base:-2:subst -> wycieczka closest-base:-1:prep -> nad closest-base:1:subst -> granica
ne-first-base:N:POS
Forma bazowa N-tego słowa o podanej klasie gramatycznej POS występująca wewnątrz anotacji. Jeżeli N<0 to słowo szukane jest od końca, jeżeli N>0 to słowo szukane jest od początku anotacji.
PRZYKŁAD
... [Wydział Informatyki i Zarządzania] ... ne-first-base:1:subst -> wydział ne-first-base:2:subst -> informatyka ne-first-base:-1:subst -> zarządzanie ne-first-base:1:conj -> i ne-first-base:2:conj -> NULL
dict:FORM:FILENAME
Dla parametru FORM należy podać jedną z wartości:- orth - sprawdzana będzie forma ortograficzna tokenów
- base - prawdzana będzie forma bazowa tokenów
- E(xact) -- cała anotacja znajduje się w słowniku,
- C(ointains) -- w słowniku znajduje się słowo/fraza, która jest częścią anotacji,
- O -- anotacja ani żaden jej fragment nie znajduje się w słowniku.
head:CECHA ŹRÓDŁOWA
Jako wartość cechy dla anotacji wykorzytywana jest wartość cechy tokenu wygenerowanej dla tokenu będącego głową anotacji.