Zadanie #5742

Zadanie #5737: Klasyfikacja anotacji w kontekście

Dodać klasyfikator anotacji oparty na CRF-ach

Added by Michał Marcińczuk over 9 years ago. Updated about 9 years ago.

Status:ZamkniętyStart date:13 Aug 2014
Priority:WysokiDue date:
Assignee:Michał Krautforst% Done:

100%

Category:-
Target version:Liner 2.4

Description

Parametry:
  • lista klas LIST,
  • nazwa klasy poddawana klasyfikacji BASE,
  • kontekst cechy kodującej anotację CONTEXT,
  • standardowe parametry CRF-a (szablon i liczba wątków).

Algorytm postępowania:
1. Przygotowanie danych. Anotacje określonych kategorii (w trybie uczenia są to anotacje z podanej listy, w trybie klasyfikacji jest to nazwa klasy poddawanej klasyfikacji) powinny zostać zwinięte do pojedynczych tokenów.
2. Dla zwiniętych anotacji konieczne będzie ponowne wygenerowanie cech. Na początek można przyjąć, że zwinięta anotacja będzie dziedziczyła cechy po głowie. Głowa to będzie pierwszy rzeczownik od lewej, a w przypadku braku rzeczownika to pierwszy token. Porządne agregowanie cech będzie wykonane w późniejszym etapie.
3. Należy automatycznie dodać cechę określającą, czy dany token będzie poddawany klasyfikacji. Oznacza to, że cecha przyjmie wartość A, jeżeli token reprezentuje anotację lub T jeżeli reprezentuje token. Cecha powinna zostać dodana do szablonu z kontekstem CONTEXT.
4. W trybie uczenia należy postąpić jak przy dotychczasowym uczeniu CRFChunker-a.
5. W trybie rozpoznawania dla każdej anotacji o nazwie BASE należy przypisać anotację ustaloną przez CRF-a. W przypadku braku anotacji należy zostawić klasę BASE. Jeżeli CRF przypisze klasę anotacji tokenowi, który nie był oznaczony jako BASE, to należy go zignorować.

Należy testować na korpusie kpwr-1.2.6-nam zmapowanym przy pomocy kpwr-mapping-muc.txt (klasy nam_*).

classification-cv.log - wyniki (16.09.14) (39.4 KB) Michał Krautforst, 16 Sep 2014 10:56

classification-cv_2.log.7z - spakowane (3.93 MB) Michał Krautforst, 16 Sep 2014 15:06

eksperymenty_z_cechami.7z - wyniki dla 1 folda, testy zlozenia z cecha context i wplywu cech anotacji (177 KB) Michał Krautforst, 21 Oct 2014 15:46

History

#1 Updated by Michał Marcińczuk over 9 years ago

  • Description updated (diff)

#2 Updated by Michał Marcińczuk over 9 years ago

  • Priority changed from Normalny to Wysoki

#3 Updated by Michał Marcińczuk over 9 years ago

context=-2,-1,0,1,2
%U101[16,-2]
%U102[16,-1]
%U103[16,0]
%U104[16,1]
%U105[16,2]

#4 Updated by Michał Krautforst about 9 years ago

zamieszczam wyniki kroswalidacji na kpwr-disamb zmapowanym kpwr-mapping-muc.txt z dodatkowym wpisem (nam_pro.* -> nam_pro)
W obecnej wersji brakuje rzutowania cech po zwinięciu anotacji, jedynie orth i base są zamieniane na tekst całej anotacji, a reszta cech dziedziczona jest po tokenie wybranym jako głowa anotacji.

#5 Updated by Michał Krautforst about 9 years ago

  • File classification-cv_2.log added

#7 Updated by Michał Marcińczuk about 9 years ago

  • Target version changed from Liner 2.5 to Liner 2.4
  • % Done changed from 0 to 100

#8 Updated by Michał Marcińczuk about 9 years ago

  • Status changed from Gotowy to Rozwiązany

#10 Updated by Michał Marcińczuk about 9 years ago

  • Status changed from Rozwiązany to Zamknięty

#11 Updated by Michał Marcińczuk about 9 years ago

  • File deleted (classification-cv_2.log)

Also available in: Atom PDF