Scenariusze użycia konkretnych kontekstów

Żeby nie projektować/implementować kontekstów, których i tak nie będziemy używać, powinniśmy wypisać poniżej scenariusze (krótko).

Co warto uwzględnić w opisie:
  • kontekst, czyli co widzą cechy (np. pojedyncze zdanie, pojedynczy akapit, okno o stałej długości w tokenach)
  • jak reprezentowane są dane (np. jako ciąg zdań corpus2.Sentence, jako jedno sztuczne zdanie, jeszcze nie wiadomo)
  • można też dopisać po czym iterujemy (np. po pojedynczych anotacjach, po parach anotacji — czy wszystkich możliwych, czy wszystkich parach ze zdania)

Typy kontekstu

Związane ze zdaniami z korpusu

Pojedyncze zdanie na słowie niejednoznaczynym

Kontekst: zdanie z corpus2, pointer: głowa anotacji znaczenia. Zastosowanie: wsd.

Iteracja: po wszystkich anotacjach znaczeń

(Uogólnienie poprzedniego) Pojedyncze zdanie na anotacji, która należy do jednego z podanych kanałów (np. wszystkie chunki NP, wszystkie anotacje opisujące słowa niejednoznaczne)

Kontekst: zdanie z corpus2, pointer: anotacja (głowa, lewa granica, prawa granica). Zastosowanie: wsd, post-klasyfikacja chunków.

Iteracja: po wszystkich anotacjach ze wszystkich kanałów z podanej listy (np. po słowach niejednoznacznych, po chunkach NP)

Pojedyncze zdanie na parze anotacji z odpowiednich kanałów (np. wszystkie pary VP–NP i VP-AdjP występujące w zdaniu)

Kontekst: zdanie z corpus2, pointer: dwie anotacja (głowa, lewa granica, prawa granica). Zastosowanie: rozpoznawanie relacji składniowych.

Iteracja: po wszystkich parach anotacji występujących w zdaniu, gdzie typ pierwszej należy do listy 1, typ drugiej do listy 2 (np. [VP]–[NP,AdjP], ale też [NP]–[NP])

Wiele zdań - dla anotacji

Kontekst: kilka zdań z corpus2. Pointer: głowa anotacji znaczenia. Zastosowanie: wsd.

Parametry dodatkowe: ile zdań w lewo od głowy anotacji, ile zdań w prawo od głowy anotacji.

Potencjalnie trzeba skleić zdania w jedno, żeby wyciągnąć worek słów. Ale nie zawsze, bo możemy mieć np. cechę typu "rzeczownik o określonej odległości od słowa niejednoznacznego" (odległość liczona w zdaniach).

Iteracja: po wszystkich anotacjach znaczeń

Wiele zdań - dla pary anotacji

Kontekst: kilka zdań z corpus2. Pointer: wskazanie na obie anotacje. Zastosowanie: anafora

Możliwe dwa warianty
  • od zdania z pierwszą anotacją do zdania z drugą anotacją wliczając wszystkie pośrednie zdania
  • gdyby to miało uprościć obliczeniowo drugi wariant - pomijający pośrednie zdania

Iteracja: po relacjach rozumianych jako para anotacji, choć raczej nie interesują nas wszystkie możliwe zadane pary. Może być potrzebny osobny proces wstępnie oznaczający interesujące pary przed uruchomieniem fextora, albo bardziej skomplikowana iteracja.

Związane z oknem (o dowolnej wielkości)

Okno N tokenów

Kontekst: n tokenów w lewo/prawo od głowy anotacji znaczeń. Zastosowanie: wsd.

Parametry: ile w lewo ile w prawo.

Potencjalnie dwa warianty: w jednym przekraczamy granice zdania, w drugim okno jest przycinane do granicy zdania z anotacją.

Iteracja: po wszystkich anotacjach znaczeń

Scenariusze

  1. Mało ważne: iterujemy po tokenach, kontekst: tylko jedno zdanie, widoczne jako corpus2.Sentence. Zastosowanie: chunker + tagger, jeśli starczy czasu.
  2. Iterujemy po parach anotacji w jednym zdaniu, kontekst: tylko jedno zdanie, widoczne jest jako corpus2.Sentence. Zastosowanie: relacje składniowe.
  3. Iterujemy po parach anotacji w ogólności w różnych zdaniach, kontekst: najbardziej ogólnie, wszystkie zdania od zdania z anotacją A począwszy po kolei na zdaniu z anotacją B skończywszy, choć w praktyce do tej pory potrzebne to tylko do cechy, która mówi o odległości w zdaniach. Poszczególne cechy mogą przyciąć ten kontekst indywidualnie np. utworzyć sztuczny zdanie z dwóch tokenów - głów obu anotacji.