Zadanie #5742

Updated by Michał Marcińczuk about 9 years ago

Parametry:
* lista klas LIST,
* nazwa klasy poddawana klasyfikacji BASE,
* kontekst cechy kodującej anotację CONTEXT,
* standardowe parametry CRF-a (szablon i liczba wątków).

Algorytm postępowania:
1. *Przygotowanie danych.* Anotacje określonych kategorii (w trybie uczenia są to anotacje z podanej listy, w trybie klasyfikacji jest to nazwa klasy poddawanej klasyfikacji) powinny zostać zwinięte do pojedynczych tokenów.
2. Dla zwiniętych anotacji konieczne będzie ponowne wygenerowanie cech. Na początek można przyjąć, że zwinięta anotacja będzie dziedziczyła cechy po głowie. Głowa to będzie pierwszy rzeczownik od lewej, a w przypadku braku rzeczownika to pierwszy token. Porządne agregowanie cech będzie wykonane w późniejszym etapie.
3. Należy automatycznie dodać cechę określającą, czy dany token będzie poddawany klasyfikacji. Oznacza to, że cecha przyjmie wartość A, jeżeli token reprezentuje anotację lub T jeżeli reprezentuje token. Cecha powinna zostać dodana do szablonu z kontekstem CONTEXT.
4. W trybie uczenia należy postąpić jak przy dotychczasowym uczeniu CRFChunker-a.
5. W trybie rozpoznawania dla każdej anotacji o nazwie BASE należy przypisać anotację ustaloną przez CRF-a. W przypadku braku anotacji należy zostawić klasę BASE. Jeżeli CRF przypisze klasę anotacji tokenowi, który nie był oznaczony jako BASE, to należy go zignorować.

Należy testować na korpusie kpwr-1.2.6-nam zmapowanym przy pomocy kpwr-mapping-muc.txt (klasy nam_*).

Back