Błąd #1396

Konwerter tagsetu nie widzi problemu z wariantami segmentacji

Added by Adam Radziszewski over 8 years ago. Updated over 8 years ago.

Status:NowyStart date:11 Apr 2011
Priority:NormalnyDue date:
Assignee:Tomasz Śniatowski% Done:

0%

Category:-
Target version:-

Description

Np. gdy słowo „jadłem” po analizie w IKIPI (maca-analyse morfo1122-ikipi) konwertujemy na KIPI, dostajemy analizę rzeczownikową i analizę jako „fin”, która w tagsecie KIPI jest nieprawidłowa. Nie wychodzi też żadne ostrzeżenie. Minimalne rozwiązanie to wyrzucenie ostrzeżenia, że jest problem z segmentacją w tym miejscu i wybór któregoś wariantu (nie mówię, że ma to być robione automatycznie, ale powinno dać się takie zachowanie zdefiniować ręcznie w pliku .conv). Przemyślę jeszcze jak to konkretnie się powinno realizować.

History

#1 Updated by Adam Radziszewski over 8 years ago

  • Assignee changed from Adam Radziszewski to Tomasz Śniatowski

Propozycja: rozszerzyć warstwę split o parametr, który określa zachowanie w sytuacjach kłopotliwych. Warunek konieczny do zadziałania splita składa się teraz z dwóch części: musi się odpalić regexp oraz musi warunek pre musi zachodzić dla wszystkich tagów. Sytuacja jest kłopotliwa, gdy regexp się dopasuje, a warunek re zachodzi dla części tagów.
Propozycja jest taka, by zawsze w takiej sytuacji wypluwane było ostrzeżenie o niekonwertowalności formy, oraz podejmowane byłyby drastyczne kroki:
1. Wariant pierwszy: wyrzucamy leksemy, które uniemożliwiają konwersję, tj, te, które nie spełniają warunku pre; po wyrzuceniu uruchamiamy splita i cieszymy się kolejną wykonaną konwersją.
2. Wariant drugi: wyrzucamy leksemy, które skądinąd chcielibyśmy przekonwertować i nie uruchamiamy splita. Cieszymy się, że nie zepsuliśmy przynajmniej leksemów, które nie podlegały konwersji.

Also available in: Atom PDF