O nas

Jesteśmy akademicką grupą naukową skupiającą osoby zainteresowane obszarami lingwistyki, lingwistyki informatycznej oraz inżynierii języka naturalnego włączając w to zagadnienia technologii językowych. Grupę G4.19 tworzą naukowcy, doktoranci oraz studenci. Nasz zespół funkcjonuje głównie w ramach Zakładu Sztucznej Inteligencji Instytutu Informatyki Politechniki Wrocławskiej, ale członkami naszej grupy są również osoby związane z innymi uczelniami i na stałe przebywające w Ottawie, Warszawie i Gdańsku. Zajmujemy się prowadzeniem badań naukowych oraz rozwojem i wdrażaniem narzędzi do komputerowego przetwarzania języka naturalnego. Szczególnie zależy nam na rozwoju podstawowych narzędzi i zasobów językowych dla języka polskiego.

Nasze zainteresowania obejmują:

  • konstrukcję wordnetu — rodzaju elektronicznego tezaurusa — dla języka polskiego (Słowosieć) w oparciu o półautomatyczną metodą zastosowaną do bardzo dużych korpusów języka polskiego (zbiorów dokumentów napisanych w języku polskim), opracowana metoda jest stosowane pod kontrolą zespołu lingwistów w ramach opracowanych przez nas narzędzi do edycji wordnetu (WordnetLoom) i półautomatycznego rozszerzania wordnetu (WordnetWeaver)
  • automatyczne wydobywanie wiedzy o semantyce leksykalnej z korpusów tekstu — w tym algorytmów do automatycznego pozyskiwania relacji semantycznych wiążących słowa z dużych korpusów tekstu.
  • analizę morfo-syntaktyczną — w tym szczególnie tzw. tagowaniem, czyli ujednoznacznianiem opisu morfo-syntaktycznego słów w tekścieskonstruowaliśmy i rozwijamy tagera dla języka polskiego o nazwie TaKIPI,
  • płytką analiza składniowa — rozwój narzędzi do płytkiej analizy składniowej dla języka polskiego,
  • rozstrzyganie niejednoznaczności leksykalnej (ang. word sense disambiguation),
  • ekstrakcję informacji — rozpoznawanie jednostek identyfikacyjnych, relacji i zdarzeń w dokumentach dziedzinowych,
  • rozpoznawanie pisma ręcznego — na poziomie analizy obrazów oraz na poziomie późniejszej korekty wyników rozpoznania w oparciu o różnego rodzaju modele językowe budowane na podstawie korpusów tekstu.


Zrealizowaliśmy i obecnie realizujemy szereg projektów badawczych finansowanych przez Ministerstwo Nauki i Szkolnictwa Wyższego oraz Unię Europejską, np.:

  • "Półautomatyczna konstrukcja zasobów leksykalnych przez rozpoznawanie relacji semantycznych na podstawie danych morfo-syntaktycznych i semantycznych w korpusach tekstu"
  • "Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych"


Udostępniamy szereg narzędzi i zasobów językowych dla języka polskiego:

  • Słowosieć -- wordnet dla języka polskiego, dostępny pod adresem http://plwordnet.pwr.wroc.pl,
  • TaKIPI -- tager dla języka polskiego dostępny na licencji GPL, do pobrania z http://nlp.pwr.wroc.pl/takipi/,
  • usługi internetowe: TaKIPI-WS, plWordNet-WS i SuperMatrix-WS.

 

Jesteśmy częścią europejskiej sieci naukowej CLARIN oraz koordynujemy działania polskiej podsieci CLARIN.

Nasza misja

  • prowadzenie badań naukowych w dziedzinie lingwistyki informatycznej i inżynierii języka naturalnego ze szczególnym uwzględnieniem specyfiki języka polskiego,
  • rozwój i wdrażanie narzędzi do komputerowego przetwarzania języka polskiego,
  • konstrukcja i upowszechnianie zasobów językowych dla języka polskiego,
  • szeroka współpraca naukowa w budowie podstawowych zasobów i narzędzi językowych dla języka polskiego,
  • popularyzacja wiedzy o zastosowaniach metod lingwistyki komputerowej i inżynierii języka naturalnego w różnych dziedzinach nauki.