Cechy tokenów¶
Z pośród całego zbioru należy wyróżnić 3 podstawowe cechy: orth, base i ctag
Są one wymagane wymagane przez formaty danych takie jak: ccl, tei (ToDo: przyjżeć się tematowi dokładniej, może coś zmienić w kodzie).
Orth
-feature orth
Forma tokenu w tekście.
Base
-feature base
Forma bazowa tokenu.
Ctag
-feature ctag
Tag morfologiczny tokenu.
Class
-feature class
Zwraca klasę gramatyczną tokenu.
Case
-feature case
Zwraca przypadek tokenu.
Number
-feature number
Zwraca liczbę gramatyczną tokenu.
Gender
-feature class
Zwraca klasę osobową tokenu.
Pattern
-feature patternDopasowywuje token do wzorców i przypisuje odpowiednią etykietę:
- ALL_UPPER - wyłącznie duże litery
- ALL_LOWER - wyłącznie małe litery
- DIGITS - wyłącznie cyfry
- SYMBOLS - wyłącznie symbole
- UPPER_INIT - początek duża literą, reszta małymi
- UPPER_CAMEL_CASE - wyłącznie litery w notacji camel case, początek z dużej litery
- LOWER_CAMEL_CASE - wyłącznie litery w notacji camel case, początek z małej litery
- MIXED - w pozostałych przypadkach
http://pl.wikipedia.org/wiki/CamelCase
Prefix
-feature prefix-{ilość znaków}
Zwraca określoną ilość znaków z początku tokenu.
Jeśli token jest za krótki wartość dopełniana jest znakiem '_'
Suffix
-feature suffix-{ilość znaków}
Zwraca określoną ilość znaków z końca tokenu.
Jeśli token jest za krótki wartość dopełniana jest znakiem '_'
Structure
ToDo
Regex
-feature regex:{wyrażenie regularne}
Sprawdza czy token dopasowywuje się do podanego wzorca.
Length
-feature length
Zwraca ilośc znaków w tokenie.
Dictionary
-feature dict_*:{orth|base|ctag}:{ścieżka do pliku ze słownikiem}
Sprawdza czy wartość danej cechy (orth, base, ctag) znajduje się we wskazanym słowniku.
Synonym
-feature synonym:{ścieżka do dumpu wordnetu}
Zwraca synonim tokenu z bazy słowosieci (http://plwordnet.pwr.wroc.pl/wordnet/)
W wypadku jego braku zwracana jest forma bazowa tokenu.
Hypernym
-feature hypernym:{odległość}:{ścieżka do dumpu wordnetu}
Zwraca hiperonim tokenu z bazy słowosieci (http://plwordnet.pwr.wroc.pl/wordnet/) znajdujący się w określonej od niego odległości.
W wypadku jego braku zwracana jest forma bazowa tokenu.
Top4Hyper
ToDo
All ...
-feature all_alphanumeric
Sprawdza czy token składa się wyłącznie ze znaków alfanumerycznych.
-feature all_digits
Sprawdza czy token jest złożony wyłacznie z cyfr.
-feature all_letters
Sprawdza czy token jest złożony wyłacznie z liter.
-feature all_capitalized
Sprawdza czy token jest złożony wyłacznie z wielkich liter.
Starts with ...
-feature starts_with_upper_case
Sprawdza czy token zaczyna się dużą literą.
-feature starts_with_lower_case
Sprawdza czy token zaczyna się małą literą.
-feature starts_with_digit
Sprawdza czy token zaczyna się cyfrą.
-feature starts_with_symbol
Sprawdza czy token zaczyna się symbolem.
Has ...
-feature has_upper_case
Sprawdza czy token zawiera dużą literę.
-feature has_lower_case
Sprawdza czy token zawiera małą literę.
-feature has_digit
Sprawdza czy token zawiera cyfrę.
-feature has_symbol
Sprawdza czy token zawiera symbol.
No ...
-feature no_letters
Sprawdza czy token nie zawiera liter.
-feature no_alphanumeric
Sprawdza czy token nie zawiera znaków alfanumerycznych.
Is number
-feature is_number
Sprawdza czy token jest liczbą zmiennoprzecinkową.
Agreement
-feature agr1
Sprawdza czy token poprzedzający ma ten sam przypadek, liczbę i płeć gramatyczną.