Lista dystrybucyjnego podobieństwa semantycznego

(Uwaga! Strona w budowie / Under construction)

Dystrybucyjne Podobieństwo Semantyczne (DPS, ang. Measure of Semantic Relatedness) obrazuje podobieństwo pomiędzy parami wyrazów na podstawie  analizy ich współwystępowania w korpusach tekstów. Ogólną sposób wydobywania podobieństwa można przedstawić następująco. W pierwszej kolejności wszystkie konkteksty interesujących słów są analizowane pod kątem współwystępowania z innymi słowami. Na podstawie częstości współwystąpień budowana jest macierz M, w której wiersze odopowiedają słowom, dla których liczone jest podobieństwo. Kolumny wyrażają cechy słów, które w najprostszym ująciu są  słowami występującymi w kontekstach słów z wierszy. Macierz M jest macierzą rzadką o bardzo dużych rozmiarach (dziesiątki tysięcy wierszy, setki tysięcy kolumn).  W następnym korku wartości w macierzy są filtrowane i ważone. Krok ten ma na celu usunięcie przypadkowych  współwystąpień jak i służy rozróżneinieu pomiędzy istotną informacją zawartą w macierzy a akcydentalną. Jedną z wag dobrze sprawdzających się w tym zadaniu jest np. punktowa informacja wzajemna.  Wiersze przetransformowanej macierzy można już porównywać wykorzystująć np. miarę konsunusową. 

Współwystępowanie można rozumieć w różny sposób: od prostego odnotowania słów w oknie tekstowym o ustalonym rozmiarze, poprzez sprawdzawdzanie ograniczeń składniowych pomiędzy słowami (np. uzgodnienia pomiędzy rzeczownikiem a przymiotnikiem), po wykorzystanie relacji składniowych z parserów zależnościowych. Udostępnione na tej stronie listy wykorzystują podejście oparte na ograniczeniach morfo-syntaktycznych.  Dokładniejszy opis wykorzystanego podejścia można znaleźć w pracach: (Piasecki, Szpakowicz and Broda 2007), (Broda et al 2008), (Piasecki, Szpakowicz and Broda 2009) i (Broda and Piasecki 2011).


Na liście dystrybucyjnego podobieństwa semantycznego dla każdego opisanego słowa zostają wypisane k najbardziej podobnych słów do niego. Listy takie można pozyskać używając systemu SuperMatrix. Na dole strony można pobrać  dwie listy podobieństwa: dla rzeczowników (kgr4_pmi_cos_filtered_TF100_20best.7z)  i czasowników (kgr3_verbsim_lincos_TF100_20best.7z). Po rozpakowaniu listy mają prosty format tekstowy. Dla przykładu:

subst:truskawka
    0.396929       subst:pomidor
    0.374989       subst:winogrono
    0.36221       subst:brzoskwinia
    0.359661       subst:ananas
    0.358338       subst:czereśnia
    0.347417       subst:porzeczka
    0.343161       subst:jabłko
    0.340363       subst:wiśnia
    0.333139       subst:śliwka
    0.321351       subst:filogeneza
    0.314859       subst:malina
    0.313577       subst:seler
    0.308124       subst:papryka
    0.30514       subst:warzywo
    0.302994       subst:melon
    0.301603       subst:figa
    0.301409       subst:kalafior
    0.299205       subst:marchew
    0.298587       subst:kukurydza
    0.297907       subst:pomarańcza


Powyższy zapis pokazuje 20 najbardziej podobnych wyrazów dla  słowa truskawka. Liczby po lewej stornie oznaczają podobieństwo - im wyższa liczby, tym wyraz jest bardziej podobny do truskawka.


Uwaga! Dane udostępniamy na licencji Creative Commons (CC BY-NC-SA 3.0). W wypadku wykorzystania list podobieństwa uprzejmie prosimy o cytowanie pracy: (Broda and Piasecki 2011).



References