Zadanie #8799
Podniesienie wersji na inforex.clarin-pl.eu oraz poprawa mechanizmu ładowania korpusu w formacie CCL
Status: | Nowy | Start date: | 02 Mar 2020 | |
---|---|---|---|---|
Priority: | Wysoki | Due date: | ||
Assignee: | Wojtek Rauk | % Done: | 0% | |
Category: | - | |||
Target version: | - |
Description
Chcielibyśmy podnieść wersję Inforexa dostępną publicznie i przy okazji zrobić mechanizm ładowania korpusu w formacie CCL.
Jest to o tyle ważne, że wiele narzędzi generuje wyniki w formacie CCL i dobrze jest móc wykorzystywać Inforexa do przeglądania
automatycznie wygenerowanych anotacji. Ładowanie dokumentów w formacie CCL działa, ale tylko poprzez opcję w Nextcloudzie (Export to Inforex).
Warto by było mieć możliwość zrobienia tego bezpośrednio w Inforexie (ale nie jest to na ten moment priorytet).
Głównym problemem w obecnym mechanizmie ładowania korpusu z CCLa jest brak możliwości załadowania innych anotacji, niż anotacje "names" (n82?). Inforex
pomija proces wczytywania anotacji jeśli KTÓRAKOLWIEK anotacja w pliku CCL jest spoza schematu "names" (n82), wtedy pomija też nawet
te, które do tego schematu należą. Docelowo potrzebujemy takiego mechanizmu, który pozwala na wczytanie anotacji spoza schematu "names".
Możemy to zrobić na kilka sposobów. Wszystkie bazują na sprawdzaniu, czy istnieje schemat obejmujący daną anotację pojawiającą się w pliku CCL.
Sugerowane rozwiązanie na początek (ogólna idea)
Jeśli w trakcie importowania Inforex napotka anotację, która jest zdefiniowana w jakimkolwiek schemacie anotacji w Inforexie -> dodaj! Jeśli anotacja
nie istnieje w systemie (nie ma schematu z tą anotacją) -> przed procesem wyświetl komunikat o brakującym schemacie i poproś o wprowadzenie schematu z
brakującymi anotacjami, lub zaakceptowanie z możliwością ignorowania tych niezdefiniowanych anotacji (wczytane zostaną tylko te, które istnieją w systemie).
Problem należałoby jeszcze przedyskutować i ustalić, jak obsługiwać takie przypadki.