Zadanie #3563
Obsługa formatu a'la premorph ale z istniejącym podziałem na zdania
Status: | Zamknięty | Start date: | 29 Dec 2011 | ||
---|---|---|---|---|---|
Priority: | Normalny | Due date: | |||
Assignee: | Michał Marcińczuk | % Done: | 80% | ||
Category: | - | ||||
Target version: | - |
Description
Działanie: każde zdanie przetwarzane jest z osobna, niezależnie od rzeczywistej konfiguracji Macy, tekst nie jest nigdy dzielony na zdania (ostatecznie: w środku dzielony jest, ale i tak wyciągamy na zewnątrz wszystkie tokeny zdań ciurkiem).
Sprawdzić też specyfikację premorpha w stanardzie XCES (jeśli premorph jako taki to nie jest pomysł jedynie warszawski), może da się to stosownie nazwać i zdefiniować.
History
#1 Updated by Adam Radziszewski over 11 years ago
- % Done changed from 0 to 80
maca-analyse obsługuje teraz typ wejścia -i premorph-stream-nosent
, która działa jak premorph-stream
, lecz na wyjściu nie wstawia dodatkowych znaczników podziału na zdania. Zatem jeśli na wejściu będzie tekst podzielony na akapity, a w nich zdania, to podział na zdania pozostanie niezepsuty.
Uwaga: opcja -i premorph-stream tak naprawdę powinna nazywać się -i xml, bo to nie musi być prawidłowy pre_morph (kusi mnie, by to zmienić, ale chyba nie warto już wprowadzać zamętu, ktoś może mieć działające skrypty, które zakładają obecne nazewnictwo). Maca w tym trybie nie sprawdza, czy to prawidłowy pre_morph, jedynie analizuje ciągłe fragmenty tekstu pomiędzy XML-owymi tagami (PCDATA) i przetwarza je za pomocą tokenizera i analizatora.
Istnieje drugi tryb — -i premorph
— który rzeczywiście zakłada, że na wejściu jest prawidłowy premorpha. Ten tryb ma taką zaletę, że automatycznie pomija puste akapity. Tego trybu nie zmieniałem, bo dodanie opcji niewypluwania podziału na zdania wymagałoby de facto stworzenia zupełnie nowego czytnika (to są inne formaty).
Jeśli idzie o standard XCES, to wydaje się już nierozwijany, a więc ma to mniejsze znaczenie, czy premorph jako taki jest jedynie warszawski, czy XCES-owy i czy premorph z podziałem na zdania jest zgodny z zaleceniami XCES-a czy nie.
#2 Updated by Adam Radziszewski over 11 years ago
- Assignee changed from Adam Radziszewski to Michał Marcińczuk
Ticketa zostawiam otwartego do momentu przetestowania, czy to daje oczekiwane wyjście.
Macę należy odpalić tak, jak robiliście to wcześniej, ale tym razem w trybie -i premorph-stream-nosent
. Plik wejściowy powinien zawierać akapity, a w nich:
<chunk …> # jakiś akapit <chunk type="s">Tekst pierwszego zdania tratata.</chunk> <chunk type="s">Tekst drugiego zdania tratata.</chunk> </chunk>
Oczywiście mogą być wcięcia i entery przed/po tagach xml-owych, to niczego nie powinno zepsuć, bo idzie to przez prawdziwy parser XML-a.
Jeśli to nie jest to, o co chodziło, to daj znać!
#3 Updated by Adam Radziszewski about 11 years ago
- Status changed from Nowy to Zamknięty
Nie doszły do mnie żadne skargi, więc uznaję, że format jest właściwy :)