Zadanie #3884

Narzędzia pomocnicze dla plików ccl

Added by Adam Wardyński about 11 years ago. Updated about 11 years ago.

Status:NowyStart date:22 Mar 2012
Priority:NormalnyDue date:
Assignee:-% Done:

0%

Category:-
Target version:-

Description

Chłopaki,

Wydaje mi się, że przydałoby się kilka pomocniczych narzędzi do obsługi plików ccl z relacjami:

a) Możliwość odfiltrowania pewnych kanałów anotacji (na wyjściu brak wybranych kanałów anotacji i relacji wiążących się z nimi)

b) Możliwość odfiltrowania pewnych relacji (na wyjściu brak wybranych relacji)

c) Scalanie odpowiadających sobie dokumentów odnośnie kanałów anotacji (dokumenty powinny mieć ten sam skład tokenowy, ale scalić różne kanały anotacji.. oczywiście są problemy gdyby kanały się pokrywały w dwóch dokumentach, ale nie wiem czy nie wolelibyśmy pominąć kwestii konfliktów/mergeów)

d) Scalanie odpowiadających sobie dokumentów odnośnie relacji

e) de facto c+d

Może ktoś z Was (lub z podopiecznych) już coś takiego napisał w którymś z projektów? Przyznam że nie wiem, czy są już takie rzeczy nawet w takim Corpus2.

Można by też sobie inne scenariusze wyobrazić np. zmienianie nazwy jakiemuś kanałowi czy relacji.

Nawet jeśli to coś mniej wyrafinowanego niż użycie readerów Corpus2, tylko jakieś grepy, regeksy czy inne awki, to jak już raz ktoś napisał coś takiego, to można by wrzucić na repo.

W każdym razie jeśli ktokolwiek coś takiego ma albo planuje napisać, to warto się tu skomunikować i może by to trafiło do repo Corpus2 dla współdzielenia.

Wydaje się to typowymi zadaniami w preprocessingu albo postprocessingu i przynajmniej w jakichś baselinowych systemach warto by mieć osobne skrypty/narzędzia do tego, którymi można by się podzielić, zamiast dedykowanych dla wybranego problemu rozwiązań.

Swoją drogą hmmm na ilę się orientuję, nie ma w Corpus2 writera do relacji?? Ślepy jestem czy coś? =] Wiem, że relacje nie były pierwotnie w założeniach, ale jak już są teraz.. Corpus2_whole co nieco pododawał do oryginalnego Corpus2, ale jest tylko reader do relacji.

To takie sygnalizacyjne issue, może trzeba będzie pozakładać kilka innych.

History

#1 Updated by Paweł Kędzia about 11 years ago

Jeśli chodzi o mnie to koncepcja z dodatkowymi narzędziami mi się podoba, podobnie jest teraz zrobione w LexCSD (Każdy moduł posiada aplikacje, które kiedyś komuś się przydały oraz skrypty w bashu np. do przefiltrowywania wyników itp.) Pomysł jest OK, tylko trzeba będzie dodatkowo zrobić jakiś spis tych narzędzi (zarówno w LexCSD jak i Corpus2 /jeśli ten pomysł przejdzie/) aby nie pisać przypadkiem dwa razy tego samego ;-)

Adam Wardyński wrote:

Swoją drogą hmmm na ilę się orientuję, nie ma w Corpus2 writera do relacji?? Ślepy jestem czy coś? =] Wiem, że relacje nie były pierwotnie w założeniach, ale jak już są teraz.. Corpus2_whole co nieco pododawał do oryginalnego Corpus2, ale jest tylko reader do relacji.

To prawda -- jest sam czytnik. I z tego co pamiętam Corpus2_whole w ogóle nie zawiera writerów.

Also available in: Atom PDF