Annotations

Parametry

usage: ./liner2-cli annotations [options]
 -a,--annotation_features <annotation_features>   a file with a list of annotation features
 -f,--input_file <filename>                       path to a file to read
 -i,--input_format <format>                       input format [iob, ccl, plain, plain:maca,
                                                  plain:wcrft, tei, batch:{format}]
 -T,--types <types>                               a file with a list of annotation name patterns
 -t,--output_file <filename>                      path to an output file
 -v,--verbose                                     print help

Definicja listy cech do opisu anotacji

Zestawienie cech

Definicja Opis
text Forma tekstowa całej anotacji
base:N
malt:PATH:DISTANCE:TYPE Forma bazowa słowa przesuniętego o N pozycji względem bieżącej pozycji
closest-base:N:POS Forma bazowa N-tego najbliższego słowa o podanej kategorii gramatycznej POS. Dla N<0 jet st to najbliższe słowo występujące przed anotacją, dla N>0 występujące po anotacji.
ne-first-base:N:POS Forma bazowa N-tego słowa o podanej klasie gramatycznej POS występująca wewnątrz anotacji. Jeżeli N<0 to słowo szukane jest od końca, jeżeli N>0 to słowo szukane jest od początku anotacji.
dict:FILENAME
head:CECHA ŹRÓDŁOWA

Szczegółowy opis cech

base:N

Forma bazowa słowa przesuniętego o N pozycji względem bieżącej pozycji.

malt:PATH:DISTANCE:TYPE

gdzie:

  • PATH to ścieżka do modelu,
  • DISTANCE to odległość od anotacji.
  • TYPE to jedna z wartości:
    • base — forma bazowa słowa nadrzędnego,
    • relation — typ relacji z elementem nadrzędnym,

Analiza zależnościowa powinna być wykonana na zdaniu po zwinięciu rozpoznanych anotacji do jednego tokenu (tak jak to było robione w Serelu).

DISTANCE o wartości 1 oznacza bezpośredni element nadrzędny anotacji. Odległość 2 oznacza element nadrzędny bezpośredniego elementu nadrzędnego anotacji, itd. Jeżeli DISTANCE jest większy niż liczba elementów nadrzędnych to cecha przyjmuje wartość NULL.

Przy generowaniu cech należy zwrócić uwagę, aby model do analizy zależnościowej był wczytywany raz oraz analiza dla poszczególnych zdań była wykonywana także raz. Możliwe będzie zdefiniowanie kilku cech bazujących maltowych, np.

malt:skladnica_liblinear_stackeager_final.mco:1:base
malt:skladnica_liblinear_stackeager_final.mco:1:relation
malt:skladnica_liblinear_stackeager_final.mco:2:base
malt:skladnica_liblinear_stackeager_final.mco:2:relation

closest-base:N:POS

Forma bazowa N-tego najbliższego słowa o podanej kategorii gramatycznej POS. Dla N<0 jet st to najbliższe słowo występujące przed anotacją, dla N>0 występujące po anotacji.

PRZYKŁAD

Wycieczka udała się nad wodospad [Niagara] położonego na granicy USA i Kanady.

closest-base:-1:subst -> wodospad
closest-base:-2:subst -> wycieczka
closest-base:-1:prep  -> nad
closest-base:1:subst  -> granica

ne-first-base:N:POS

Forma bazowa N-tego słowa o podanej klasie gramatycznej POS występująca wewnątrz anotacji. Jeżeli N<0 to słowo szukane jest od końca, jeżeli N>0 to słowo szukane jest od początku anotacji.

PRZYKŁAD

... [Wydział Informatyki i Zarządzania] ...

ne-first-base:1:subst  -> wydział
ne-first-base:2:subst  -> informatyka
ne-first-base:-1:subst -> zarządzanie
ne-first-base:1:conj   -> i
ne-first-base:2:conj   -> NULL

dict:FORM:FILENAME

Dla parametru FORM należy podać jedną z wartości:
  • orth - sprawdzana będzie forma ortograficzna tokenów
  • base - prawdzana będzie forma bazowa tokenów
Cecha przyjmuje wartości:
  • E(xact) -- cała anotacja znajduje się w słowniku,
  • C(ointains) -- w słowniku znajduje się słowo/fraza, która jest częścią anotacji,
  • O -- anotacja ani żaden jej fragment nie znajduje się w słowniku.

head:CECHA ŹRÓDŁOWA

Jako wartość cechy dla anotacji wykorzytywana jest wartość cechy tokenu wygenerowanej dla tokenu będącego głową anotacji.