Zadanie #8799

Podniesienie wersji na inforex.clarin-pl.eu oraz poprawa mechanizmu ładowania korpusu w formacie CCL

Added by Arkadiusz Janz over 2 years ago.

Status:NowyStart date:02 Mar 2020
Priority:WysokiDue date:
Assignee:Wojtek Rauk% Done:

0%

Category:-
Target version:-

Description

Chcielibyśmy podnieść wersję Inforexa dostępną publicznie i przy okazji zrobić mechanizm ładowania korpusu w formacie CCL.
Jest to o tyle ważne, że wiele narzędzi generuje wyniki w formacie CCL i dobrze jest móc wykorzystywać Inforexa do przeglądania
automatycznie wygenerowanych anotacji. Ładowanie dokumentów w formacie CCL działa, ale tylko poprzez opcję w Nextcloudzie (Export to Inforex).
Warto by było mieć możliwość zrobienia tego bezpośrednio w Inforexie (ale nie jest to na ten moment priorytet).

Głównym problemem w obecnym mechanizmie ładowania korpusu z CCLa jest brak możliwości załadowania innych anotacji, niż anotacje "names" (n82?). Inforex
pomija proces wczytywania anotacji jeśli KTÓRAKOLWIEK anotacja w pliku CCL jest spoza schematu "names" (n82), wtedy pomija też nawet
te, które do tego schematu należą. Docelowo potrzebujemy takiego mechanizmu, który pozwala na wczytanie anotacji spoza schematu "names".
Możemy to zrobić na kilka sposobów. Wszystkie bazują na sprawdzaniu, czy istnieje schemat obejmujący daną anotację pojawiającą się w pliku CCL.

Sugerowane rozwiązanie na początek (ogólna idea)

Jeśli w trakcie importowania Inforex napotka anotację, która jest zdefiniowana w jakimkolwiek schemacie anotacji w Inforexie -> dodaj! Jeśli anotacja
nie istnieje w systemie (nie ma schematu z tą anotacją) -> przed procesem wyświetl komunikat o brakującym schemacie i poproś o wprowadzenie schematu z
brakującymi anotacjami, lub zaakceptowanie z możliwością ignorowania tych niezdefiniowanych anotacji (wczytane zostaną tylko te, które istnieją w systemie).

Problem należałoby jeszcze przedyskutować i ustalić, jak obsługiwać takie przypadki.

Also available in: Atom PDF