Zadanie #2381
Tryb do generowania pliku ARFF dla szablonu
Status: | Zamknięty | Start date: | 29 Sep 2011 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | Maciej Janicki | % Done: | 100% | |
Category: | - | |||
Target version: | - |
Description
Należy dodać tryb o nazwie 'arff', który będzie służył do generowania pliku z danymi w formacie ARFF na podstawie zdefiniowanych cech i szablonu cech.
Parametry:i -format pliku wejściowego,f -nazwa pliku wejściowego,t -nazwa pliku wynikowego,feature -zestaw cech do wygenerowania,template -definicja szablonu.
Zakładamy, że w trybie arff będzie podana definicja jednego szablonu, więc zawsze będzie pobierany pierwszy szablon z brzegu.
Opis formatu pliku ARFF znajduje się na stronie http://www.cs.waikato.ac.nz/ml/weka/arff.html .
Założenia:- dla każdego tokenu zostanie wygenerowanych tyle cech, ile jest zdefiniowanych w szablonach. Każdy szablon zawierający kilka indeksów danego atrybutu musi zostać rozwinięty na tyle cech, ile jest indeksów. Na przykład dla 'orth:-1:0:1' zostaną wygenerowane 3 cechy: orth-1, orth+0, orth+1. Dla atrybutów złożonych kolejne wartości będą musiały być sklejone, np. znakiem #. Na przykład dla orth:0/orth:1 i słowa Ala w zdaniu 'Ala ma kota' zostanie wygenerowane wyrażenie 'Ala#ma'.
- wszystkie atrybuty będą typu String,
- nazwy atrybutów prostych będą złożeniem nazwy i indeksu, na przykład base-1, base+0, base+1,
- nazwy atrybutów złożonych będą miały postać złączenia nazw prostych znakiem _, np. base+0_base+1
- w pliku wynikowym ARFF nie będzie podziału na zdania i dokumenty,
- każdy token będzie opisany w jednym wierszu,
- klasą każdego tokenu będzie tag, taki jak jest w pliku IOB, tj. B-NAZWA, I-NAZWA lub O, gdzie NAZWA to właściwa nazwa anotacji.
History
#1 Updated by Maciej Janicki almost 12 years ago
- Status changed from Przypisany to Rozwiązany
- % Done changed from 0 to 100
#2 Updated by Michał Marcińczuk over 10 years ago
- Status changed from Rozwiązany to Zamknięty