
wordnet języka polskiego
O Słowosieci
Słowosieć (z ang. wordnet) to sieć semantyczna, która odzwierciedla system leksykalny języka polskiego. Węzłami Słowosieci są jednostki leksykalne, czyli wyrazy i ich znaczenia, różnorako połączone relacjami semantycznymi ze ściśle określonego repertuaru. Na przykład kot jest hiponimem (podklasą) zwierzęcia, pazur i łapa są w relacji meronimii (część/całość), a wchodzić i wychodzić są antonimami. Jednostka leksykalna uzyskuje znaczenie przez odniesienie do innych jednostek leksykalnych w obrębie systemu, a możemy o niej wnioskować na podstawie przypisanych jej relacji. Na przykład kota definiuje się jako rodzaj zwierzęcia, łapę jako całość, której częścią jest pazur, a czynności wchodzenia i wychodzenia jako przeciwieństwa.
Struktura wordnetu jest dostosowana do potrzeb automatycznej analizy tekstów. Jest to w istocie podstawowy zasób językowy, ważny w badaniach nad sztuczną inteligencją. Dzięki Słowosieci będzie łatwiej uczyć komputery rozumieć polszczyznę i Polaków.
Pierwszy na świecie wordnet (WordNet) powstał w końcu lat 80. na Uniwersytecie Princeton. W ostatnim dwudziestoleciu w ślady twórców WordNetu poszły setki zespołów badawczych. Jest wśród nich Grupa Naukowa G4.19 Politechniki Wrocławskiej. Nietypowo, Słowosieć jest budowana nie metodą tłumaczenia princetońskiego WordNetu, tylko od podstaw, wspólnym wysiłkiem leksykografów i informatyków. W roku 2009 udostępniona została w Internecie pierwsza wersja, licząca około 27000 jednostek leksykalnych. Obecnie Słowosieć opisuje 178000 rzeczowników, czasowników, przymiotników i przysłówków, zawiera niemal 259000 unikatowych znaczeń i ponad 600000 instancji relacji. Jest największym wordnetem na świecie. Decyzją władz Politechniki Wrocławskiej Słowosieć jest udostępniana nieodpłatnie do wszelkich zastosowań (również komercyjnych) w oparciu o licencję wzorowaną na licencji Princeton WordNet.
Aby otrzymać pliki źródłowe Słowosieci, należy zarejestrować się poprzez formularz rejestracyjny poniżej. Użytkownicy mogą przeglądać Słowosieć również za pomocą aplikacji mobilnej oraz WordNetlLoom-Viewera. (aplikacji umożliwiającej podgląd siatki znaczeń Słowosieci). Programiści mają także dostęp do Słowosieci na poziomie usługi sieciowej.
Słowosieć rozbudowywana jest dzięki grantom Ministerstwa Nauki i Szkolnictwa Wyższego i Funduszom Unijnym (pełna lista – poniżej). Dążymy do zbudowania słownika pojęciowego w pełni reprezentatywnego dla współczesnego języka polskiego, porównywalnego z największymi wordnetami na świecie. Oznacza to jednak, że Słowosieć w kształcie na dzisiaj nie jest jeszcze ukończona; nie jest ani kompletna, ani wolna od usterek i błędów. Dużo pracy jeszcze przed nami. Dołożyliśmy jednak wszelkich starań, by udostępniana obecnie wersja 3.0 jakością nie ustępowała wielkim wordnetom światowym – WordNetowi Uniwersytetu Princeton, EuroWordNetowi (wspólna inicjatywa kilkunastu państw członkowskich Unii Europejskiej) czy GermaNetowi (Uniwersytet w Tybindze).
Projekty, w ramach których była lub jest rozwijana Słowosieć:
- Automatyczne metody konstrukcji sieci semantycznej leksemów polskich na potrzeby przetwarzania języka naturalnego (2005–2008), finansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego, nr 3T11C01829,
- Konstrukcja zasobów leksykalnych przez rozpoznawanie relacji semantycznych na podstawie danych morfosyntaktycznych i semantycznych w korpusach tekstu (2009–2012), finansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego, nr N N516 068637,
- NEKST — Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych (2010–2013), finansowany przez Unię Europejską w ramach programu Innowacyjna Gospodarda POIG.01.01.02-14-013/09,
- SyNaT — Zadanie badawcze „Utworzenie uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy” (2010–2013), finansowany przez Narodowe Centrum Badań i Rozwoju.
- CLARIN-PL - Polska część infrastruktury naukowej CLARIN ERIC: Wspólne zasoby językowe i infrastruktura technologiczna (2013–2015), finansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego, decyzja nr 6358/IA/119/2013.
AutorzyKierownik projektu:
Koncepcja Słowosieci i koordynacja prac lingwistycznych:
Leksykografowie:
Główni wykonawcy części informatycznejPodziękowaniaSpecjalne podziękowania za krytyczne uwagi składamy Pani Profesor Elżbiecie Hajnicz z IPI PAN.Kontakte-mail: plwordnet_at_pwr_dot_wroc_dot_pl (adres zmieniony) |
CytowanieRudnicka E., Maziarz M., Piasecki M., Szpakowicz S. (2012) Mapping plWordNet onto Princeton WordNet. (doc) Maziarz M., Piasecki M., Szpakowicz S. (2012) Approaching plWordNet 2.0. Proceedings of the 6th Global Wordnet Conference, Matsue, 9-13th January, 2012, Japan (Accepted for publishing). (pdf) Piasecki M., Szpakowicz S., Broda B. A Wordnet from the Ground Up. Wroclaw : Oficyna Wydawnicza Politechniki Wroclawskiej, 2009. (pdf) PublikacjePozostałe publikacje związane ze Słowosiecią znajdują się na stronie grupy G4.19.Pobranie aktualnej wersji 3.1Uprzejmie prosimy o wypełnienie poniższego formularza, co pozwoli nam na wysyłanie informacji o zmianach i uaktualnieniach. Wiedza o sposobach wykorzystania Słowosieci ułatwi nam jej dalszy rozwój. Na podany adres e-mail zostanie wysłany link do pobrania aplikacji. Wersje archiwalne |