Zadanie #5971
Domyślne zachowanie dla anotacji zagnieżdżonych w CRF
Status: | Zamknięty | Start date: | 09 Sep 2014 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | Michał Krautforst | % Done: | 100% | |
Category: | - | |||
Target version: | Liner 2.4 |
Description
Obecny mechanizm generowania klas dla tokenów w przypadku anotacji zagnieżdżonych tworzy niepoprawne kodowanie anotacji.
Na przykład dla zdania:
<ORG><ADJ>Polska</ADJ> Akademia Nauk</ORG>
i zadania rozpoznawania anotacji ORG i ADJ tworzona jest następująca sekwencja klas:
Polska B-ADJ Akademia I-ORG Nauk I-ORG
Sposób kodowania klas powinien być zamieniony na następujący.
Jeżeli token oznaczony jest kilkoma anotacjami, to klasa dla tokenu będzie konkatenacją klas dla każdej anotacji. Kolejność klas powinna być od najdłuższej do najkrótszej, a w przypadku anotacji tej samej długości w porządku alfabetycznym. Dla powyższego przykładu będzie:
Polska B-ORG#B-ADJ Akademia I-ORG Nauk I-ORG
Ten sposób kodowania będzie wymagał zmiany odczytu klas przypisanych tokenom, ponieważ CRF będzie także produkował sklejone klasy.
History
#1 Updated by Michał Marcińczuk about 9 years ago
- Subject changed from Domyślne zachodzanie dla anotacji zagnieżdżonych w CRF to Domyślne zachowanie dla anotacji zagnieżdżonych w CRF
#2 Updated by Michał Krautforst about 9 years ago
- Status changed from Przypisany to Rozwiązany
- % Done changed from 0 to 100
#3 Updated by Michał Marcińczuk almost 9 years ago
- Status changed from Rozwiązany to Zamknięty