Czasownik wchodzi w następujące relacje leksykalno-semantyczne:

 

1. Relacje konstytutywne:

  • hiponimia / hiperonimia (iść → przemieszczać się);
  • meronima / holonimia czasownikowa (jeść → przełykać):
  • stanowość (bieleć się → biały);
  • procesywność (pobrudzić się →  brudny);
  • kauzatywność (poić → pić);
  • inchoatywność (zasnąć → spać);
  • presupozycja (umrzeć → żyć);
  • uprzedniość (siąść → leżeć | stać);
  • wielokrotność:

- dystrybutywność (pozabijać →  zabić),
- iteratywność (jadać → jeść).

2. Relacje jednostek leksykalnych:

  • aspektowość:

- czysta (budować wybudować),

- wtórna (pozabijać zabijać);

  • antonimia:

- komplementarna (wrócić z tarczą wrócić na tarczy),

- właściwa (wchodzić wychodzić);

  • konwersja (sprzedawać kupować);
  • derywacyjność (odwadniać ← woda);
  • zawieranie roli (V N):

- obiekt | pacjens (kartkować kartka),

- instrument (solić sól),

- rezultat (portretować portret),

- miejsce i czas (garażować garaż),

- czas (nocować noc).

 

3. Pozostałe relacje

  • bliskoznaczność (syninimia między jednostkami o istotnie różnych rejestrach stylistycznych: kochać sięobcować (cieleśnie)),
  • obiekt
  • subiekt
  • sposób
  • okoliczność
  • fuzzynimia synsetów (służyć ↔ cel).

Liner2 modele NER v2

Model names — granice nazw własnych

Model names rozpoznaje granice nazw własnych bez ich kategoryzacji. Przymiotniki utworzone od nazw własnych nie są rozpoznawane przez ten model (kategoria nam_adj).

Poniżej znajduje się przykładowy dokument z zaznaczonymi granicami nazw własnych:

Toronto Dominion Centre

Toronto Dominion Centre - kompleks handlowo-kulturalny w kanadyjskim mieście Toronto, w Financial District. Składa się z 3 czarnych budynków, zaprojektowanych przez architekta Ludwiga Mies van der Rohe.

Budynki tworzą odgrodzony od ulic dziedziniec, na którym Joe Fafard ustawił 6 odpoczywających krów z brązu. Pomiędzy budynkami stoi także wielkie krzesło. W południe odbywają się koncerty jazzowe.

W kompleksie znajduje się jedna z najważniejszych galerii sztuki Inuitów Toronto Dominion Gallery of Inuit Art.

Wynik oceny na części testowej korpusu KPWr 1.2 (index_names_test.list).

KategoriaPełna zgodnośćCzęściowe dopasowanie
PrecyzjaKompletnośćMiara FPrecyzjaKompletnośćMiara F
nam 85,99% 84,26% 85,12% 90,82% 89,13% 89,97%

Model top8 — osiem głównych kategorii obiektów

Toronto Dominion Centre

Toronto Dominion Centre - kompleks handlowo-kulturalny w kanadyjskim mieście Toronto, w Financial District. Składa się z 3 czarnych budynków, zaprojektowanych przez architekta Ludwiga Mies van der Rohe .

Budynki tworzą odgrodzony od ulic dziedziniec, na którym Joe Fafard ustawił 6 odpoczywających krów z brązu. Pomiędzy budynkami stoi także wielkie krzesło. W południe odbywają się koncerty jazzowe.

W kompleksie znajduje się jedna z najważniejszych galerii sztuki Inuitów Toronto Dominion Gallery of Inuit Art.

Wynik oceny na części testowej korpusu KPWr 1.2 (index_names_test.list).

KategoriaPełna zgodnośćCzęściowe dopasowanie
PrecyzjaKompletnośćMiara FPrecyzjaKompletnośćMiara F
nam_adj 81,58% 62,72% 70,92% 81,95% 63,01% 71,24%
nam_eve 56,86% 32,04% 40,99% 64,22% 36,09% 46,21%
nam_fac 66,99% 46,67% 55,01% 70,57% 49,00% 57,84%
nam_liv 80,65% 79,91% 80,28% 82,71% 82,40% 82,56%
nam_loc 82,97% 87,63% 85,24% 84,28% 88,76% 86,47%
nam_org 67,59% 68,74% 68,16% 71,23% 72,63% 71,92%
nam_oth 80,67% 48,73% 60,76% 81,51% 49,24% 61,39%
nam_pro 59,17% 53,69% 56,29% 64,08% 58,15% 60,97%
łącznie 74,87% 70,21% 72,46% 77,45% 72,68% 74,99%
granice - - - 86,31% 80,93% 83,53%

Projekty

  1. Słowosieć 1.0
    Nazwa Automatyczne metody konstrukcji sieci semantycznej leksemów polskich na potrzeby przetwarzania języka naturalnego.
    Okres od 2005-10-30 do 2008-10-30 Numer 3 T11C 018 29
    Kwota 366 900,00 PLN Kierownik dr inż. Maciej Piasecki
  2. Słowosieć 2.0
    Nazwa Konstrukcja zasobów leksykalnych przez rozpoznawanie relacji semantycznych na podstawie danych morfosyntaktycznych i semantycznych w korpusach tekstu.
    Okres od 2009-10-30 do 2012-10-30 Numer N N516 068637
    Kwota 406 960,00 PLN Kierownik dr inż. Maciej Piasecki
  3. NEKST
    Nazwa NEKST Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych.
    Okres od 2010-01-01 do 2014-07-01 Numer POIG.01.01.02-14-013/09
    Kwota 4 110 743,00 PLN (dla PWr) Kierownik dr inż. Maciej Piasecki
  4. SyNaT
    Nazwa SyNaT: Zadanie badawcze „Utworzenie uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy”
    Okres od 2010-08-16 do 2014-07-31 Numer POIG.01.01.02-14-013/09
    Kwota 2 800 000,00 PLN (dla PWr) Kierownik dr inż. Maciej Piasecki
  5. CLARIN-PL
    Nazwa CLARIN-PL: „Polska część infrastruktury naukowej CLARIN ERIC: Wspólne zasoby językowe i infrastruktura technologiczna.”
    Okres od 2013-01-01 do 2015-04-30 Numer 6358/IA/119/2013
    Kwota 16 500 000,00 PLN Kierownik dr inż. Maciej Piasecki
    (Polski Koordynator Narodowy z ramienia MNiSW)
  6. CLARIN-PL wsparcie
    Nazwa Opracowanie metodologii prac nad rozwojem infrastruktury technologii językowych CLARIN oraz upowszechnienie wytworzonej w ramach CLARIN infrastruktury badawczej.
    Okres od 2015-02-16 do 2016-04-30 Numer 3255/CLARIN ERIC/2015/0
    Kwota 1 000 000,00 PLN Kierownik dr inż. Maciej Piasecki

 

Narzędzia

NazwaOpisOpiekun
Inforex Webowy system do zarządzania i anotacji korpusów tekstowych Michał Marcińczuk
Liner2 Narzędzie do rozpoznawania jednostek identyfikacyjnych i wyrażeń temporalnych w tekście dla j. polskim Michał Marcińczuk
SpatialPL Narzędzie do rozpoznawania wyrażeń przestrzennych w tekście dla j. polskim Michał Marcińczuk

Zasoby

NazwaOpisOpiekun
KPWr Korpus plików tekstowych anotowanych na różnych poziomiach (frazy, słowa kluczowe, jednostki identyfikacyjne, wyrażenia temporalne i przestrzenne, sytuacje, anafora, WSD) Michał Marcińczuk
Marcin Oleksy
Słowosieć Słownik semantyczny, który odzwierciedla system leksykalny języka polskiego. Obecnie zawiera 176 000 rzeczowników, czasowników i przymiotników, 255 000 znaczeń oraz 600 000 relacji. Jest już największym wordnetem na świecie i nieustannie się rozrasta. Maciej Piasecki
Acoustic Data Building Toolset

Acoustic Data Building Toolset for Easy Experimentation with Neural Network-based Speech Recognition in Polish and English

Jerzy Sas
CLARIN_PRECOMB Data set for experimenting with phoneme recognition using a combination of CNN for Polish Jerzy Sas


Keyword extraction framework

Keyword extraction framework for Polish which allows analyzing various methods of extraction with KPWr corpus transformed to meet framework requirements Jerzy Sas

Wytyczne

 

Kierownik Grupy Technologii Językowych G4.19

dr inż. Maciej Piasecki

maciej [dot] piasecki [at] pwr [dot] edu [dot] pl

 

Kotakt w sprawie WordnetLooma

tomasz [dot] naskret [at] pwr [dot] edu [dot] pl

 

Kontakt w sprawie Słowosieci

plwordnet [at] pwr [dot] edu [dot] pl

lub

agnieszka [dot] dziob [at] pwr [dot] edu [dot] pl