Tytuł projektu

Automatyczne metody konstrukcji sieci semantycznej leksemów polskich na potrzeby przetwarzania języka naturalnego

Projekt jest finansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego, projekt Nr 3 T11C 018 29.

Główny cel

Konstrukcja dużej Słowosieci (ang. plWordNet) - lingwistycznej sieci semantycznych relacji leksykalnych - dla języka polskiego możliwie najtańszym kosztem.

Poprzez sieć semantycznych relacji leksykalnych rozumiemy rodzaj tezaurusa elektronicznego o strukturze zbliżonej do tezaurusa WordNet oraz tezaurusów skonstruowanych w ramach projektu EuroWordNet. W Słowosieci znaczenie jednostek leksykalnych (jedno lub wielowyrazowych) jest opisywane poprzez umieszczenie jej w sieci powiązań wyrażających takie relacje znaczeniowe jak: synonimia, hiperonimia, meronimia ...

Obniżenie kosztów konstrukcji Słowosieci zamierzy osiągnąć poprzez jej półautomatyczną konstrucję, tzn. poprzez wspomaganie pracy lingwistów narzędziami informatycznymi, które na podstawie analizy dużych korpusów tesku języka polskiego (np. Korpus IPI PAN) będą proponować automatycznie wydobyte relacje leksykalne.

Docelowy kształt Słowosieci

W czasie trwanie projektu zamierzamy skonstruować sieć zawierającej opis 15-25 tysiący jednostek leksykalnych, w tym około 8 tysięcy opisanych wyłącznie ręcznie (bez udziału metod automatycznych) przez lingwistów. Jednostki opisane wyłącznie stanowią górną część relacji hiperonimii - definiują główną strukturę Słowosieci.