Cechy¶
Cechy definiowane są przy pomocy argumentu -feature.
Liner obsługuje następujące cechy:
- orth
- base
- ctag
- syn
- hyp1
- hyp2
- hyp3
- class
- case
- number
- gender
- pattern
- prefix-1
- prefix-2
- prefix-3
- prefix-4
- suffix-1
- suffix-2
- suffix-3
- suffix-4
- starts_with_upper_case
- starts_with_lower_case
- starts_with_symbol
- starts_with_digit
- has_upper_case
- has_lower_case
- has_symbol
- has_digit
- gaze_nam:gaze_path -- cecha słownikowa, gdzie gaze_nam to unikalna nazwa cechy słownikowej, a gaze_path to ścieżka do słownika. Dla każdej sekwencji w tekście, który należy do danego słownika cecha przyjmuje wartości: B dla pierwszego elementu wyrażenia i I dla kolejnych elementów. Znakowana jest zawsze najdłuższa nazwa występująca w słowniku. Słowa nie będące nazwami są oznaczane jako O.
Przykład:-feature person_first_nam:{INI_PATH}/names4/person_first_nam.txt
-feature country_prefix:base:{INI_PATH}/keywords1/country_prefix.txt
- nesim-gaze_nam-sim_limit:NESIM_PATH -- cecha podobieństwa wyrazu do zbioru wyrazów znajdujących się w słowniku określonego typu (gaze_nam, np."person_first_nam"). Wartość podobieństwa wyliczana jest dla wyrazów rozpoczynających się z wielkiej litery (starts_with_upper_case == True), dla pozostałych przyjmuje wartość SIM0. sim_limit jest to próg odcięcia, powyżej którego wyrazy są oznaczone jako najbardziej podobne (SIM5). Dla wybranych miar podobieństwa najlepsza wartość progu odcięcia wynosi 3.4. Cecha przyjmuje wartości: SIM0, SIM1, SIM2, ..., SIM5.
Przykład:-feature nesim-person_first_nam-3.4:/home/jank/nesim -feature nesim-person_last_nam-3.4:/home/jank/nesim -feature nesim-road_nam-3.4:/home/jank/nesim