Zadanie #5971

Domyślne zachowanie dla anotacji zagnieżdżonych w CRF

Added by Michał Marcińczuk about 9 years ago. Updated almost 9 years ago.

Status:ZamkniętyStart date:09 Sep 2014
Priority:NormalnyDue date:
Assignee:Michał Krautforst% Done:

100%

Category:-
Target version:Liner 2.4

Description

Obecny mechanizm generowania klas dla tokenów w przypadku anotacji zagnieżdżonych tworzy niepoprawne kodowanie anotacji.

Na przykład dla zdania:

<ORG><ADJ>Polska</ADJ> Akademia Nauk</ORG>

i zadania rozpoznawania anotacji ORG i ADJ tworzona jest następująca sekwencja klas:

Polska   B-ADJ
Akademia I-ORG
Nauk     I-ORG

Sposób kodowania klas powinien być zamieniony na następujący.

Jeżeli token oznaczony jest kilkoma anotacjami, to klasa dla tokenu będzie konkatenacją klas dla każdej anotacji. Kolejność klas powinna być od najdłuższej do najkrótszej, a w przypadku anotacji tej samej długości w porządku alfabetycznym. Dla powyższego przykładu będzie:

Polska   B-ORG#B-ADJ
Akademia I-ORG
Nauk     I-ORG

Ten sposób kodowania będzie wymagał zmiany odczytu klas przypisanych tokenom, ponieważ CRF będzie także produkował sklejone klasy.

History

#1 Updated by Michał Marcińczuk about 9 years ago

  • Subject changed from Domyślne zachodzanie dla anotacji zagnieżdżonych w CRF to Domyślne zachowanie dla anotacji zagnieżdżonych w CRF

#2 Updated by Michał Krautforst about 9 years ago

  • Status changed from Przypisany to Rozwiązany
  • % Done changed from 0 to 100

#3 Updated by Michał Marcińczuk almost 9 years ago

  • Status changed from Rozwiązany to Zamknięty

Also available in: Atom PDF