Zadanie #4648

Klasyfikator anotacji NAM (v2)

Added by Michał Marcińczuk about 10 years ago. Updated almost 9 years ago.

Status:ZamkniętyStart date:20 Mar 2013
Priority:NormalnyDue date:20 Mar 2013
Assignee:Michał Krautforst% Done:

100%

Category:-
Target version:Liner 2.4

Description

Należy zaimplementować klasę AnnotationClassifierChunker dziedziczącą po Chunker, która będzie służyła do klasyfikacji anotacji określonego typu.

Działanie

Każda anotacja o typie ze zbioru types zostanie sklasyfikowana przy pomocy klasyfikatora classifier. Wynik klasyfikacji zostaie zapisany jako zbiór nowych anotacji o typie zwróconym przez classifier (wraz z pewnością klasyfikacji). Classifier dla jednej anotacji może zwrócić kilka potencjalnych typów z różnymi stopniami pewności.

Metoda:

  • public HashMap<Sentence, AnnotationSet> chunk(ParagraphSet ps) — implementacja metody abstrakcyjnej z klasy Chunker

Inicjalizacja:

Sposób definicji chunker przy pomocy parametru -chunker [opis]:

-chunker name:classifier:ini_path:base_classifier

Gdzie:

  • ini_path — ścieżka do pliku ini z definicją klasyfikatora,
  • base_classifier — nazwa klasifkatora wcześniej zdefiniowanego, który posłuży jako dane wejściowe do klasyfikacji. Jest to parametr opcjonalny. Jeżeli nie zostanie podany, to klasyfikacji poddawane są dane w takiej postaci, w jakiej zostały podane do metody chunker, czyli zakładamy, że anotacje do klasyfikacji będą w danych wejściowych.

Plik ini

Ostateczny kształt pliku ini jest do ustalenia. Parametry, które muszą się na pewno znaleźć to:

  • mode — jedna z wartości:
    • train — model jest uczony w trakcie tworzenia i zapisywany w podane miejsce
    • load — model jest wczytywany, z podanej lokalizacji, a jeżeli go nie ma to zachowuje się jak dla train,
  • store — lokalizacja, w której znajduje się model lub ma zostać zapisany model po wyuczeniu,
  • classify — lista anotacji, które mają być poddane klasyfikacji,
  • classes — lista rozpatrywanych anotacji. Dla tych anotacji ma być uczony model, a pozostałe mają być zingorowane podczas uczenia.
  • classifier:type — nazwa klasyfikatora użyta do stworzenia modelu,
  • classifier:strategy — 1-vs-all (dla każdej klasy osobny klasyfikator) lub multi (jeden klasyfikator wieloklasowy)
  • data:format
  • data:source
  • features — lista cech

Ścieżki względne mają być rozpatrywane względem katalogu, w którym znajduje się bieżący plik ini.

Przykład pliku ini:

[main]
mode = load
store = model/test
classify = nam
classes = org,loc,per,oth

[classifier]
type = weka.classifiers.rules.JRip
strategy = 1-vs-all

[data]
format = iob
source = kpwr-1.1-nam.iob

[features]
dict_loc = dict:orth:location.txt
dict_org = dict:orth:organization.txt
...

Related issues

Follows Liner2 — jednostki identyfikacyjne, TImeX, wyznaczniki sytuacji - Zadanie #4647: Atrybut confidence dla klasy Annotation Przypisany 19 Mar 2013

History

#1 Updated by Michał Marcińczuk about 10 years ago

  • Tracker changed from Błąd to Zadanie

#2 Updated by Michał Marcińczuk about 10 years ago

  • Status changed from Nowy to Przypisany
  • Assignee set to Jan Kocoń

#3 Updated by Michał Marcińczuk about 10 years ago

  • Assignee deleted (Jan Kocoń)

#4 Updated by Michał Marcińczuk about 10 years ago

  • Target version set to Liner 2.x

#5 Updated by Michał Marcińczuk almost 10 years ago

  • Subject changed from Klasyfikator anotacji NAM to Klasyfikator anotacji NAM (v2)
  • Assignee set to Michał Krautforst
  • Target version changed from Liner 2.x to Liner 2.4

#6 Updated by Michał Krautforst almost 10 years ago

  • Status changed from Przypisany to Rozwiązany
  • % Done changed from 0 to 100

do sekcji [classifier] dodano jeszcze "parameters", określający dodatkowe parametry klasyfikatora

#7 Updated by Michał Marcińczuk almost 9 years ago

  • Status changed from Rozwiązany to Zamknięty

Also available in: Atom PDF