Wsparcie #3138

Jakich iteratorów jeszcze brakuje?

Added by Bartosz Broda over 11 years ago. Updated over 11 years ago.

Status:OdpowiedźStart date:08 Dec 2011
Priority:NormalnyDue date:
Assignee:-% Done:

0%

Category:-
Target version:beta

Description

Napiszcie jakich iteratorów jeszcze Wam brakuje i zróbcie odpowiednie zadania na redmine (z wersją docelową ustawioną na beta)

History

#1 Updated by Adam Wardyński over 11 years ago

Przydałąby się iteracja po zadanych relacjach, jest to rodzaj iteracji po parach anotacji tylko że chodzi o pary połączone zadanymi relacjami. Dzięki temu też jakieś zewnętrzne narzędzie może wstępnie 'zaanotować' te pary, które w danym problemie chcemy rozważyć, nie zmieniając już fextora / nie dodając bardziej skomplikowanego iteratora.

Oczywiście kwestia taka, że przy klasyfikacji to nie znamy właśnie relacji, ale ogólnie użycie fextora nie do uczenia a do klasyfikacji nieznanych rzeczy może być kłopotliwe. Tzn. użycie generatorów cech owszem, ale jak określać, co chcemy zaklasyfikować i jak tą klasyfikację oznaczyć? To chyba już jakieś osobne narzędzia potrzebne.

#2 Updated by Bartosz Broda over 11 years ago

Adam Wardyński wrote:

Oczywiście kwestia taka, że przy klasyfikacji to nie znamy właśnie relacji, ale ogólnie użycie fextora nie do uczenia a do klasyfikacji nieznanych rzeczy może być kłopotliwe. Tzn. użycie generatorów cech owszem, ale jak określać, co chcemy zaklasyfikować i jak tą klasyfikację oznaczyć? To chyba już jakieś osobne narzędzia potrzebne.

Tak, to jest osobny issue (związany z #3142), ale czasmi można wykorzystać istniejącą architekturę Fextora. Np. dla WSD w działaniu będziemy mieć osobny iterator, iterujący po tokenach o zadanym base. W Twoim przypadku wypadałoby dodać zaawansowany iterator, który w pierwszej kolejności wyszuka bytów nazwanych....

#3 Updated by Bartosz Broda over 11 years ago

To od razu wpiszę: do WSD brakuje jeszcze wariantu iteracji po tokenach o wybranych formach podstawowych (#3143). Przydatne w trakcie działania na korpusie nieoznaczonym.

#4 Updated by Bartosz Broda over 11 years ago

brr, zły przycisk

#5 Updated by Radosław Ramocki over 11 years ago

Brakuje iteracji po zdanich oraz przydałby się iterator po N anotacjach, czyli uogólniony:

SentAnnotPairIterator
.

#6 Updated by Adam Radziszewski over 11 years ago

Iteracja po zdaniach jest.

#7 Updated by Radosław Ramocki over 11 years ago

A jak się nazywa klasa? Bo nie mogę znaleźć.

#8 Updated by Adam Radziszewski over 11 years ago

Być może Twoje pytanie jest w ogóle źle sformułowane :)
O tym, czy interesuje nas samo zdanie, czy coś innego, decyduje typ kontekstu (fizycznie: slicera).

Jeśli interesuje Cię pojedynczy token w granicach zdania (albo czegokolwiek), to używasz EveryTokenIterator.
Jeśli interesuje Cię pojedyncza anotacja w granicach czegokolwiek, to używasz NamedAnnotIterator.

Jeśli interesuje Cię iteracja po parach albo inszych krotkach anotacji w granicach jednego zdania, to dopiero wtedy ma to znaczenie dla iteratora, że ograniczamy się do zdania. Tutaj zaimplementowana jest obecnie tylko (?) iteracja po parach w granicach zdania — SentAnnotPairIterator.

Also available in: Atom PDF