Zadanie #5742
Zadanie #5737: Klasyfikacja anotacji w kontekście
Dodać klasyfikator anotacji oparty na CRF-ach
Status: | Zamknięty | Start date: | 13 Aug 2014 | |
---|---|---|---|---|
Priority: | Wysoki | Due date: | ||
Assignee: | Michał Krautforst | % Done: | 100% | |
Category: | - | |||
Target version: | Liner 2.4 |
Description
- lista klas LIST,
- nazwa klasy poddawana klasyfikacji BASE,
- kontekst cechy kodującej anotację CONTEXT,
- standardowe parametry CRF-a (szablon i liczba wątków).
Algorytm postępowania:
1. Przygotowanie danych. Anotacje określonych kategorii (w trybie uczenia są to anotacje z podanej listy, w trybie klasyfikacji jest to nazwa klasy poddawanej klasyfikacji) powinny zostać zwinięte do pojedynczych tokenów.
2. Dla zwiniętych anotacji konieczne będzie ponowne wygenerowanie cech. Na początek można przyjąć, że zwinięta anotacja będzie dziedziczyła cechy po głowie. Głowa to będzie pierwszy rzeczownik od lewej, a w przypadku braku rzeczownika to pierwszy token. Porządne agregowanie cech będzie wykonane w późniejszym etapie.
3. Należy automatycznie dodać cechę określającą, czy dany token będzie poddawany klasyfikacji. Oznacza to, że cecha przyjmie wartość A, jeżeli token reprezentuje anotację lub T jeżeli reprezentuje token. Cecha powinna zostać dodana do szablonu z kontekstem CONTEXT.
4. W trybie uczenia należy postąpić jak przy dotychczasowym uczeniu CRFChunker-a.
5. W trybie rozpoznawania dla każdej anotacji o nazwie BASE należy przypisać anotację ustaloną przez CRF-a. W przypadku braku anotacji należy zostawić klasę BASE. Jeżeli CRF przypisze klasę anotacji tokenowi, który nie był oznaczony jako BASE, to należy go zignorować.
Należy testować na korpusie kpwr-1.2.6-nam zmapowanym przy pomocy kpwr-mapping-muc.txt (klasy nam_*).
History
#1 Updated by Michał Marcińczuk over 9 years ago
- Description updated (diff)
#2 Updated by Michał Marcińczuk over 9 years ago
- Priority changed from Normalny to Wysoki
#3 Updated by Michał Marcińczuk over 9 years ago
context=-2,-1,0,1,2
%U101[16,-2] %U102[16,-1] %U103[16,0] %U104[16,1] %U105[16,2]
#4 Updated by Michał Krautforst about 9 years ago
- File classification-cv.log added
- Status changed from Nowy to Gotowy
zamieszczam wyniki kroswalidacji na kpwr-disamb zmapowanym kpwr-mapping-muc.txt z dodatkowym wpisem (nam_pro.* -> nam_pro)
W obecnej wersji brakuje rzutowania cech po zwinięciu anotacji, jedynie orth i base są zamieniane na tekst całej anotacji, a reszta cech dziedziczona jest po tokenie wybranym jako głowa anotacji.
#5 Updated by Michał Krautforst about 9 years ago
- File classification-cv_2.log added
#6 Updated by Michał Krautforst about 9 years ago
- File classification-cv_2.log.7z added
#7 Updated by Michał Marcińczuk about 9 years ago
- Target version changed from Liner 2.5 to Liner 2.4
- % Done changed from 0 to 100
#8 Updated by Michał Marcińczuk about 9 years ago
- Status changed from Gotowy to Rozwiązany
#9 Updated by Michał Krautforst about 9 years ago
- File eksperymenty_z_cechami.7z added
#10 Updated by Michał Marcińczuk about 9 years ago
- Status changed from Rozwiązany to Zamknięty
#11 Updated by Michał Marcińczuk about 9 years ago
- File deleted (
classification-cv_2.log)