Cechy tokenów

Z pośród całego zbioru należy wyróżnić 3 podstawowe cechy: orth, base i ctag
Są one wymagane wymagane przez formaty danych takie jak: ccl, tei (ToDo: przyjżeć się tematowi dokładniej, może coś zmienić w kodzie).

Orth

-feature orth

Forma tokenu w tekście.

Base

-feature base

Forma bazowa tokenu.

Ctag

-feature ctag

Tag morfologiczny tokenu.

Class

-feature class

Zwraca klasę gramatyczną tokenu.

Case

-feature case

Zwraca przypadek tokenu.

Number

-feature number

Zwraca liczbę gramatyczną tokenu.

Gender

-feature class

Zwraca klasę osobową tokenu.

Pattern

-feature pattern
Dopasowywuje token do wzorców i przypisuje odpowiednią etykietę:
  • ALL_UPPER - wyłącznie duże litery
  • ALL_LOWER - wyłącznie małe litery
  • DIGITS - wyłącznie cyfry
  • SYMBOLS - wyłącznie symbole
  • UPPER_INIT - początek duża literą, reszta małymi
  • UPPER_CAMEL_CASE - wyłącznie litery w notacji camel case, początek z dużej litery
  • LOWER_CAMEL_CASE - wyłącznie litery w notacji camel case, początek z małej litery
  • MIXED - w pozostałych przypadkach

http://pl.wikipedia.org/wiki/CamelCase

Prefix

-feature prefix-{ilość znaków}

Zwraca określoną ilość znaków z początku tokenu.
Jeśli token jest za krótki wartość dopełniana jest znakiem '_'

Suffix

-feature suffix-{ilość znaków}

Zwraca określoną ilość znaków z końca tokenu.
Jeśli token jest za krótki wartość dopełniana jest znakiem '_'

Structure

ToDo

Regex

-feature regex:{wyrażenie regularne}

Sprawdza czy token dopasowywuje się do podanego wzorca.

Length

-feature length

Zwraca ilośc znaków w tokenie.

Dictionary

-feature dict_*:{orth|base|ctag}:{ścieżka do pliku ze słownikiem}

Sprawdza czy wartość danej cechy (orth, base, ctag) znajduje się we wskazanym słowniku.

Synonym

-feature synonym:{ścieżka do dumpu wordnetu}

Zwraca synonim tokenu z bazy słowosieci (http://plwordnet.pwr.wroc.pl/wordnet/)
W wypadku jego braku zwracana jest forma bazowa tokenu.

Hypernym

-feature hypernym:{odległość}:{ścieżka do dumpu wordnetu}

Zwraca hiperonim tokenu z bazy słowosieci (http://plwordnet.pwr.wroc.pl/wordnet/) znajdujący się w określonej od niego odległości.
W wypadku jego braku zwracana jest forma bazowa tokenu.

Top4Hyper

ToDo

All ...

-feature all_alphanumeric

Sprawdza czy token składa się wyłącznie ze znaków alfanumerycznych.

-feature all_digits

Sprawdza czy token jest złożony wyłacznie z cyfr.

-feature all_letters

Sprawdza czy token jest złożony wyłacznie z liter.

-feature all_capitalized

Sprawdza czy token jest złożony wyłacznie z wielkich liter.

Starts with ...

-feature starts_with_upper_case

Sprawdza czy token zaczyna się dużą literą.

-feature starts_with_lower_case

Sprawdza czy token zaczyna się małą literą.

-feature starts_with_digit

Sprawdza czy token zaczyna się cyfrą.

-feature starts_with_symbol

Sprawdza czy token zaczyna się symbolem.

Has ...

-feature has_upper_case

Sprawdza czy token zawiera dużą literę.

-feature has_lower_case

Sprawdza czy token zawiera małą literę.

-feature has_digit

Sprawdza czy token zawiera cyfrę.

-feature has_symbol

Sprawdza czy token zawiera symbol.

No ...

-feature no_letters

Sprawdza czy token nie zawiera liter.

-feature no_alphanumeric

Sprawdza czy token nie zawiera znaków alfanumerycznych.

Is number

-feature is_number

Sprawdza czy token jest liczbą zmiennoprzecinkową.

Agreement

-feature agr1

Sprawdza czy token poprzedzający ma ten sam przypadek, liczbę i płeć gramatyczną.