Błąd #1396
Konwerter tagsetu nie widzi problemu z wariantami segmentacji
Status: | Nowy | Start date: | 11 Apr 2011 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | Tomasz Śniatowski | % Done: | 0% | |
Category: | - | |||
Target version: | - |
Description
Np. gdy słowo „jadłem” po analizie w IKIPI (maca-analyse morfo1122-ikipi) konwertujemy na KIPI, dostajemy analizę rzeczownikową i analizę jako „fin”, która w tagsecie KIPI jest nieprawidłowa. Nie wychodzi też żadne ostrzeżenie. Minimalne rozwiązanie to wyrzucenie ostrzeżenia, że jest problem z segmentacją w tym miejscu i wybór któregoś wariantu (nie mówię, że ma to być robione automatycznie, ale powinno dać się takie zachowanie zdefiniować ręcznie w pliku .conv). Przemyślę jeszcze jak to konkretnie się powinno realizować.
History
#1 Updated by Adam Radziszewski over 12 years ago
- Assignee changed from Adam Radziszewski to Tomasz Śniatowski
Propozycja: rozszerzyć warstwę split
o parametr, który określa zachowanie w sytuacjach kłopotliwych. Warunek konieczny do zadziałania splita składa się teraz z dwóch części: musi się odpalić regexp
oraz musi warunek pre
musi zachodzić dla wszystkich tagów. Sytuacja jest kłopotliwa, gdy regexp
się dopasuje, a warunek re
zachodzi dla części tagów.
Propozycja jest taka, by zawsze w takiej sytuacji wypluwane było ostrzeżenie o niekonwertowalności formy, oraz podejmowane byłyby drastyczne kroki:
1. Wariant pierwszy: wyrzucamy leksemy, które uniemożliwiają konwersję, tj, te, które nie spełniają warunku pre
; po wyrzuceniu uruchamiamy splita i cieszymy się kolejną wykonaną konwersją.
2. Wariant drugi: wyrzucamy leksemy, które skądinąd chcielibyśmy przekonwertować i nie uruchamiamy splita. Cieszymy się, że nie zepsuliśmy przynajmniej leksemów, które nie podlegały konwersji.