Cechy

Cechy definiowane są przy pomocy argumentu -feature.

Liner obsługuje następujące cechy:

  • orth
  • base
  • ctag
  • syn
  • hyp1
  • hyp2
  • hyp3
  • class
  • case
  • number
  • gender
  • pattern
  • prefix-1
  • prefix-2
  • prefix-3
  • prefix-4
  • suffix-1
  • suffix-2
  • suffix-3
  • suffix-4
  • starts_with_upper_case
  • starts_with_lower_case
  • starts_with_symbol
  • starts_with_digit
  • has_upper_case
  • has_lower_case
  • has_symbol
  • has_digit
  • gaze_nam:gaze_path -- cecha słownikowa, gdzie gaze_nam to unikalna nazwa cechy słownikowej, a gaze_path to ścieżka do słownika. Dla każdej sekwencji w tekście, który należy do danego słownika cecha przyjmuje wartości: B dla pierwszego elementu wyrażenia i I dla kolejnych elementów. Znakowana jest zawsze najdłuższa nazwa występująca w słowniku. Słowa nie będące nazwami są oznaczane jako O.
    Przykład:
    -feature person_first_nam:{INI_PATH}/names4/person_first_nam.txt
    
    -feature country_prefix:base:{INI_PATH}/keywords1/country_prefix.txt
    
  • nesim-gaze_nam-sim_limit:NESIM_PATH -- cecha podobieństwa wyrazu do zbioru wyrazów znajdujących się w słowniku określonego typu (gaze_nam, np."person_first_nam"). Wartość podobieństwa wyliczana jest dla wyrazów rozpoczynających się z wielkiej litery (starts_with_upper_case == True), dla pozostałych przyjmuje wartość SIM0. sim_limit jest to próg odcięcia, powyżej którego wyrazy są oznaczone jako najbardziej podobne (SIM5). Dla wybranych miar podobieństwa najlepsza wartość progu odcięcia wynosi 3.4. Cecha przyjmuje wartości: SIM0, SIM1, SIM2, ..., SIM5.
    Przykład:
    -feature nesim-person_first_nam-3.4:/home/jank/nesim
    -feature nesim-person_last_nam-3.4:/home/jank/nesim
    -feature nesim-road_nam-3.4:/home/jank/nesim