Zadanie #3853

[fextor2lexcsd] zapis modelu konwersji

Added by Paweł Kędzia over 11 years ago. Updated over 10 years ago.

Status:ZamkniętyStart date:15 Mar 2012
Priority:PilnyDue date:
Assignee:Dominik Piasecki% Done:

100%

Category:-
Target version:1.0

Description

Konwersja wartości wygenerowanych z Fextora do macierzy LexCSD (fextor2lexcsd) powinna uwzględniać model, w którym zapisane są "zrzutowane" wartości.
Czyli, zakładając, że mamy cechę orth oraz zdanie: Ala ma kota o nazwie Ala. Dostaniemy na wyjściu Fextora:

orth
"Ala;ma;kota;o;nazwie" 

Oraz zakładając, że mamy typ konwersji NUMERIC, całość może być przekonwertowana do postaci:
orth
1;2;3;4;5

Czyli mamy gdzieś zapisaną informację o rzutowaniu (nazwijmy to część model konwersji, bo taki zapis, przykładowo dla innej cechy, powinien uwzględnić nowe rzutowanie):

Ala -> 1
ma -> 2
kota -> 3
o -> 4
nazwie -> 5

Teraz zadanie polega na tym, aby korzystając z zapisanego modelu (rzutowania wartości), dla nowych wartości generowanych przez Fextora wykorzystać informację o rzutowaniu.
Czyli, załóżmy, że mamy zdanie Ola ma psa i kota oraz cechę orth, wyjście Fextora będzie wyglądało:

orth
Ola;ma;psa;i;kota

Podczas konwersji do typu NUMERIC należy sprawdzić czy mamy model, który opisuje konwersję dla konkretnej cechy i wykorzystać model do rzutowania.
Tzn, wykorzystując wcześniejsze informacje o rzutowaniu otrzymamy:

orth
6;2;7;8;3

History

#1 Updated by Bartosz Broda over 11 years ago

  • Assignee set to Dominik Piasecki

Przypisuje Dominikowi, ale będziesz musiał Pawle wprowadzić Dominika w fextora...

#2 Updated by Paweł Kędzia over 11 years ago

Oki

#3 Updated by Adam Wardyński over 11 years ago

Szczerze mówiąc, skoro już idziemy w tym kierunku, to ja też chętnie bym widział bezpośrednie wsparcie na tym etapie także konwersji kolumnowej, żeby samemu nie trzeba było trzymać oryginalnej macierzy i tak, tylko po to, by robić align_to_first_matrix tuż przed "rzeczywistym" użyciem klasyfikatora. Chociaż pozostaje pytanie, co z nowymi wartościami, które nie wystąpiły oryginalnie.. Jest tu trochę inny problem niż przy Numeric.

Może to powinno być osobne issue czekające na odpowiedź od Bartka/Pawła..

#4 Updated by Bartosz Broda over 11 years ago

Adam Wardyński wrote:

Może to powinno być osobne issue czekające na odpowiedź od Bartka/Pawła..

Zrób taki issuse :)

#5 Updated by Adam Radziszewski over 11 years ago

  • Priority changed from Normalny to Pilny

bump

#6 Updated by Paweł Kędzia over 11 years ago

Po wykorzystaniu konwersji numeric lub numeric_set dostajemy model konwersji, zapisany w polu attributes w macierzy LexCSD. Jego postać, to (w pseudokodzie):

{
 cecha_1: {0:'wartosc_1', 1:'wartosc_2', ..., N:'wartosc_N},
 cecha_2: {1:'wartosc_1', 0:'wartosc_2', ..., N:'wartosc_M},
 (...)
 cecha_N: {3:'wartosc_1', 2:'wartosc_2', ..., N:'wartosc_K},
}

Czyli słownik słowników, gdzie klucz w "głównym" słowniku to po prostu cecha (kolumna macierzy), a wartość to drugi słownik, w którym mamy zapisane odwzorowanie liczba -> wartość. Czyli dla przykładu z #3853 otrzymamy:
{
 'orth': {1:'Ala', 2:'ma', 3:'kota', 4:'o', 5:'nazwie'}
}

To, co nie jest aktualnie zrobione, to wykonanie konwersji z uwzględnieniem tego modelu.

#7 Updated by Dominik Piasecki over 11 years ago

  • Status changed from Nowy to Rozwiązany
  • % Done changed from 0 to 100

#8 Updated by Adam Radziszewski over 10 years ago

  • Status changed from Rozwiązany to Zamknięty

Also available in: Atom PDF