KPWr (Korpus Języka Polskiego Politechniki Wrocławskiej, ang. Polish Corpus of Wrocław University of Technology) jest zbiorem dokumentów tekstowych dostępnych na licencji Creative Commons. Dokumenty zostały otagowane przy pomocy narzędzia wcrft2 i opisane różnymi typami informacji takimi jak jednostki identyfikacyjne, wyrażenia temporalne, frazy składniowe, znaczenie słów (pełna lista znajduje się w sekcji Indeksy i statystyki elementów).
Statystyki najnowszej wersji korpusu (1.2)
Podkorpus | Dokumenty | Tokeny | ||
---|---|---|---|---|
liczba | % | liczba | % | |
blogi | 171 | 10,48% | 52793 | 11,80% |
dap (dłuższe artykuły prasowe) | 132 | 8,09% | 41181 | 9,20% |
dialog | 91 | 5,58% | 30070 | 6,72% |
kap (krótsze artykuły prasowe) | 221 | 13,55% | 34284 | 7,66% |
nauka | 87 | 5,33% | 28269 | 6,32% |
popularno-naukowe i podręczniki | 73 | 4,48% | 22463 | 5,02% |
proza dawna | 86 | 5,27% | 36094 | 8,06% |
proza współczesna | 42 | 2,58% | 19101 | 4,27% |
religijne | 9 | 0,55% | 5357 | 1,20% |
stenogramy | 79 | 4,84% | 32297 | 7,22% |
techniczne | 17 | 1,04% | 4373 | 0,98% |
urzędowe | 62 | 3,80% | 18890 | 4,22% |
ustawy | 80 | 4,90% | 31620 | 7,06% |
wikinews | 123 | 7,54% | 28264 | 6,31% |
wikipedia | 358 | 21,95% | 62520 | 13,97% |
1631 | 447576 |
Indeksy i statystyki elementów
Indeksy wskazują, które dokumenty zostały opisane danym rodzajem informacji.
Indeks | Dok. | An. | Rel. | Lem. | |
---|---|---|---|---|---|
Nazwa | Zawartość | ||||
index_chunks.list | Frazy składniowe | 307 | 94831 | - | 5772 |
index_chunks_rel.list | Relacje między frazami składniowymi | 305 | - | 11029 | - |
index_names.list | Jednostki identyfikacyjne/nazwy własne | 1343 | 28816 | - | - |
index_names_lemma.list | Lematyzacja jednostek identyfikacyjnych | 1343 | - | - | 28697 |
index_names_rel.list | Relacje semantyczne między jednostkami identyfikacyjnymi | 1118 | - | 3512 | - |
index_wsd_nv.list | Ujednoznacznione znaczenia słów | 1179 | 13555 | - | - |
index_spatial.list | Wyrażenia przestrzenne (wyznaczniki) | 1526 | 7873 | - | - |
index_spatial_rel.list | Wyrażenia przestrzenne (połączenia) | 1531 | - | 5695 | - |
index_zero_verb.list | Czasowniki z podmiotem domyślnym | 969 | 7111 | - | - |
index_keywords.list | Tekstowe słowa kluczowe | 1629 | 10552 | - | - |
index_timex.list | Wyrażenia temporalne | 1630 | 12726 | - | - |
index_timex_local.list | Lokalna normalizacja wyrażeń temporalnych | 1606 | - | - | 5967 |
index_timex_global.list | Globalna normalizacja wyrażeń temporalnych | 1630 | - | - | 5789 |
index_events.list | Sytuacje (wyznaczniki) | 333 | 8686 | - | - |
index_events_g0.list | Sytuacje (wyznaczniki) zbiór gold #0 | 101 | 3077 | - | - |
index_events_g1.list | Sytuacje (wyznaczniki) zbiór gold #1 | 50 | 2357 | - | - |
index_events_g2.list | Sytuacje (wyznaczniki) zbiór gold #2 | 50 | 2364 | - | - |
index_events_g3.list | Sytuacje (wyznaczniki) zbiór gold #3 | 34 | 1321 | - | - |
index_serol.list | Role semantyczne | 1037 | 2199 | 1401 | - |
index_coref.list | Koreferencja | 50 | 4868 | 8926 | - |
Podgląd
Jednostki identyfikacyjne
Toronto Dominion Centre
Toronto Dominion Centre - kompleks handlowo-kulturalny w kanadyjskim mieście Toronto, w Financial District. Składa się z 3 czarnych budynków, zaprojektowanych przez architekta Ludwiga Mies van der Rohe.
Budynki tworzą odgrodzony od ulic dziedziniec, na którym Joe Fafard ustawił 6 odpoczywających krów z brązu. Pomiędzy budynkami stoi także wielkie krzesło. W południe odbywają się koncerty jazzowe.
W kompleksie znajduje się jedna z najważniejszych galerii sztuki Inuitów – Toronto Dominion Gallery of Inuit Art.
Wyrażenia przestrzenne
Toronto Dominion Centre
Toronto Dominion Centre - kompleks↷1↷2 handlowo-kulturalny 1w kanadyjskim mieście↷1 Toronto, 2w Financial District↷2. Składa się z 3 czarnych budynków, zaprojektowanych przez architekta Ludwiga Mies van der Rohe.
Budynki tworzą 3odgrodzony od ulic↷3 dziedziniec↷3, 4na którym↷4 Joe Fafard ustawił 6 odpoczywających krów↷4 z brązu. 5Pomiędzy budynkami↷5 stoi także wielkie krzesło↷5. W południe odbywają się koncerty jazzowe.
6W kompleksie↷6 znajduje się jedna↷6 z najważniejszych galerii sztuki Inuitów – Toronto Dominion Gallery of Inuit Art.
Format
Każdy dokument jest zapisany w trzech plikach, które zawierają następujące informacje:
- *.xml (plik CCL) - zawiera tokenizację, podział na zdania, analizę morfologiczną tekstu, anotacje oraz lematy,
- *.rel.xml (plik CCL-REL) - zawiera relacje między anotacjami,
- *.ini (plik INI) - zawiera metadane dokumentu.
Szczegółowy opis formatów CCL i CCL-REL znajduje się na tej stronie: CCL_format.
Licencja
Korpus KPWr udostępniany jest na licencji Creative Commons Attribution 3.0 Unported Licence http://creativecommons.org/licenses/by/3.0/legalcode.
Releases
KPWr 1.2 (soon)
- soon
KPWr 1.1 (26.01.2013)
- Includes only clean (verified) documents.
- Increased number of semantic relations — the rare semantic relations were also included.
- Changes in relation names:
- "Anaphora" to "Coreference"
- "ref: nw – nw" to "coreference_pn"
- "ref: agp – nw (bez zaimków osobowych)" to "coreference_agp"
- "ref: podmiot zerowy – nw" to "coreference_zero"
- "ref: zaimki osobowe – nw" to "coreference_pron"
- Includes semantic relations between "wyznacznik" and names (*_coref relations).
- The annotations of syntactic chunk heads were converted to token attributes (following CCL specification).
- 'index_names_rel.txt' changed to 'index_name_rel.txt'
- 'index_anaphora.txt' changed to 'index_coref.txt'
KPWr 1.0 (26.11.2012)
First official release
References
- Bartosz Broda, Michał Marcińczuk, Marek Maziarz, Adam Radziszewski, Adam Wardyński. KPWr: Towards a Free Corpus of Polish. Proceedings of LREC'12, 2012.
- Michał Marcińczuk, Marcin Oleksy, Jan Kocoń, Tomasz Bernaś, Michał Wolski. Towards an event annotated corpus of Polish. Cognitive Studies | Études cognitives, 2015.
- Adam Radziszewski, Marek Maziarz, Jan Wieczorek. Shallow syntactic annotation in the Corpus of Wrocław University of Technology. Cognitive Studies, 2012.