Zadanie #2381

Tryb do generowania pliku ARFF dla szablonu

Added by Michał Marcińczuk about 12 years ago. Updated over 10 years ago.

Status:ZamkniętyStart date:29 Sep 2011
Priority:NormalnyDue date:
Assignee:Maciej Janicki% Done:

100%

Category:-
Target version:-

Description

Należy dodać tryb o nazwie 'arff', który będzie służył do generowania pliku z danymi w formacie ARFF na podstawie zdefiniowanych cech i szablonu cech.

Parametry:
  • i - format pliku wejściowego,
  • f - nazwa pliku wejściowego,
  • t - nazwa pliku wynikowego,
  • feature - zestaw cech do wygenerowania,
  • template - definicja szablonu.

Zakładamy, że w trybie arff będzie podana definicja jednego szablonu, więc zawsze będzie pobierany pierwszy szablon z brzegu.

Opis formatu pliku ARFF znajduje się na stronie http://www.cs.waikato.ac.nz/ml/weka/arff.html .

Założenia:
  • dla każdego tokenu zostanie wygenerowanych tyle cech, ile jest zdefiniowanych w szablonach. Każdy szablon zawierający kilka indeksów danego atrybutu musi zostać rozwinięty na tyle cech, ile jest indeksów. Na przykład dla 'orth:-1:0:1' zostaną wygenerowane 3 cechy: orth-1, orth+0, orth+1. Dla atrybutów złożonych kolejne wartości będą musiały być sklejone, np. znakiem #. Na przykład dla orth:0/orth:1 i słowa Ala w zdaniu 'Ala ma kota' zostanie wygenerowane wyrażenie 'Ala#ma'.
  • wszystkie atrybuty będą typu String,
  • nazwy atrybutów prostych będą złożeniem nazwy i indeksu, na przykład base-1, base+0, base+1,
  • nazwy atrybutów złożonych będą miały postać złączenia nazw prostych znakiem _, np. base+0_base+1
  • w pliku wynikowym ARFF nie będzie podziału na zdania i dokumenty,
  • każdy token będzie opisany w jednym wierszu,
  • klasą każdego tokenu będzie tag, taki jak jest w pliku IOB, tj. B-NAZWA, I-NAZWA lub O, gdzie NAZWA to właściwa nazwa anotacji.

History

#1 Updated by Maciej Janicki almost 12 years ago

  • Status changed from Przypisany to Rozwiązany
  • % Done changed from 0 to 100

#2 Updated by Michał Marcińczuk over 10 years ago

  • Status changed from Rozwiązany to Zamknięty

Also available in: Atom PDF