Pytania i odpowiedzi ze zbioru „Czy wiesz”

„Czy wiesz” to zbiór 4721 pytań wraz z linkami do stron Wikipedii zawierających odpowiedzi na te pytania uzyskany na podstawie projektu wikipedyjnego „Czy wiesz”.

Dla 250 spośród tych pytań przeprowadzono ręczną analizę odpowiedzi. Zbiór wzbogacono o oznaczenie konkretnych fragmentów zawierających odpowiedź na te pytania. Wszystkie wskazane fragmenty zostały zweryfikowane przez człowieka. Niektórym pytaniom przypisano wiele fragmentów.

Celem zbioru jest testowanie i rozwój systemów typu Question Answering.

Zbiór zawiera:

  1. Wstępnie przetworzony zrzut polskiej Wikipedii z 22.01.2013 (Czywiesz.tar).
  2. Listę poprawnych pytań pobranych z serwisu "Czy wiesz" (source/questions.txt).
  3. Listę poprawnych pytań pobranych z serwisu "Czy wiesz" z linkami do stron Wikipedii (source/questions_links.txt)
  4. Listę poprawnych pytań pobranych z serwisu "Czywiesz" i przypisane im dokumenty mające zawierać odpowiedź (source/czywiesz.csv).
  5. Listę pytań odrzuconych jako niepoprawne (source/removed.txt).
  6. Główny zbiór (annotations/results/czywiesz-eva-I-250-approved.json) opiera się na 250 wylosowanych pytaniach. Dla każdego z nich uruchomiliśmy roboczą wersję systemu. Wyjściem systemu dla każdego pytania była uszeregowana wg trafności (zdaniem systemu) lista 200 dokumentów z wikipedii wraz z oznaczeniem fragmentu pięciozdaniowego, który zdaniem systemu zawiera najlepszą odpowiedź. Każda z odpowiedzi systemu została zweryfikowana przez człowieka (250 pytań razy 200 odpowiedzi). Wynikiem weryfikacji jest akceptacja bądź odrzucenie odpowiedzi. W przypadku akceptacji osoba oceniająca dokonywała także korekty zakresu fragmentu (z dokładnością do pełnych zdań). Wynikiem jest więc zbiór par pytanie–odpowiedź, gdzie na jedno pytanie może być wiele odpowiedzi, a odpowiedzią jest para (dokument, fragment zawierający odpowiedź).
  7. Logi śladujące proces pobierania pytań z Wikipedii (logs/log1.txt i logs/log2.txt).

Liczymy na to, że dzięki udostępnieniu zarówno pytań, jak i całej kolekcji testowej (całej Wikipedii z wspomnianego zrzutu), możliwe będzie przeprowadzenie różnych eksperymentów w tych samych warunkach, dzięki czemu wyniki będą bezpośrednio ze sobą porównywalne.

Zbiór udostępniany jest na licencji Creative Commons Uznanie Autorstwa Na tych samych warunkach 3.0 (CC-BY-SA 3.0).

Instytut Informatyki, Politechnika Wrocławska, 2013

Osoby zaangażowane w projekt

Łukasz Burdka
Michał Marcińczuk
Dominik Piasecki
Maciej Piasecki
Marcin Ptak
Adam Radziszewski
Paweł Rychlikowski
Tomasz Zięba

Zmiany

2.0.
- spośród wszystkich pytań wylosowano 250 (annotations/results/czywiesz-eva-I-250-approved.json)
- 250 pytań zostało poddane ręcznej weryfikacji; w tym celu uruchomiono roboczą wersję systemu QA i anotatorzy ocenili 200 pierwszych odpowiedzi systemu na każde z 250 pytań; wyniki oceny zawrate są w plikach CSV
- oprócz tego wylosowano 1347 pytań do zbioru rozwojowego (zbiór ten rozłączny jest z głównym zbiorem 250 pytań) i przeprowadzono tam podobną weryfikację, lecz anotatorzy oceniali jedynie 10 pierwszych odpowiedzi
- zamieniono ze sobą nazwy zbiorów: rozwojowy (dev) z zbiorem do końcowej oceny (eva); zamiana była konieczna ze względu na niefortunną pomyłkę

1.1.
- dodane numery ID dla zdań w pliku czywiesz.csv
- zamiana kolejności kolumn w pliku czywiesz.csv (desc. -> ReadMe.txt: l. 48)
- uaktualniony plik ReadMe.txt
- dodatkowy podział na część rozwojową i część do późniejszej oceny (pliki CSV w katalogu source)

1.0.

- pierwsza wersja zbioru

 

 

Opis

NELexicon to gazetteer nazw własnych, który zawiera ponad 1.4 miliona unikalnych nazw własnych przypisanych do kategorii (par kategoria; nazwa), w tym ponad 1,37 miliona unikalnych napisów (z pominięciem powtórzeń nazw własnych przypisanych do kilku kategorii).

NELexicon2 to rozszerzona wersją gazetteera nazw własnych, która zawiera ponad 2,3 miliona unikalnych napisów. NELexicon został wzmogacony o następujące zasoby:

  • zdrobnienia imion,
  • obcojęzyczne formy polskich imion,
  • nazwy wyciągnięte z infoboxów polskiej Wikipedii,
  • formy odmiany nazw z infoboxów polskiej Wikipedii wyciągnięte z linków wewnętrznych Wikipedii,
  • lista nazw rozpoznanych przez Liner2 z modelem 56 nam o liczbie wystąpień równej lub większej niż 5. Jako, że nazwy zostały rozpoznane automatycznie, to lista może zawierać błędnie rozpoznane nazwy.
  • formy odmiany nazw wyciągnięte z polskiego Wikisłownika.

Pliki

 

Lista dystrybucyjnego podobieństwa semantycznego

(Uwaga! Strona w budowie / Under construction)

Dystrybucyjne Podobieństwo Semantyczne (DPS, ang. Measure of Semantic Relatedness) obrazuje podobieństwo pomiędzy parami wyrazów na podstawie  analizy ich współwystępowania w korpusach tekstów. Ogólną sposób wydobywania podobieństwa można przedstawić następująco. W pierwszej kolejności wszystkie konkteksty interesujących słów są analizowane pod kątem współwystępowania z innymi słowami. Na podstawie częstości współwystąpień budowana jest macierz M, w której wiersze odopowiedają słowom, dla których liczone jest podobieństwo. Kolumny wyrażają cechy słów, które w najprostszym ująciu są  słowami występującymi w kontekstach słów z wierszy. Macierz M jest macierzą rzadką o bardzo dużych rozmiarach (dziesiątki tysięcy wierszy, setki tysięcy kolumn).  W następnym korku wartości w macierzy są filtrowane i ważone. Krok ten ma na celu usunięcie przypadkowych  współwystąpień jak i służy rozróżneinieu pomiędzy istotną informacją zawartą w macierzy a akcydentalną. Jedną z wag dobrze sprawdzających się w tym zadaniu jest np. punktowa informacja wzajemna.  Wiersze przetransformowanej macierzy można już porównywać wykorzystująć np. miarę konsunusową. 

Współwystępowanie można rozumieć w różny sposób: od prostego odnotowania słów w oknie tekstowym o ustalonym rozmiarze, poprzez sprawdzawdzanie ograniczeń składniowych pomiędzy słowami (np. uzgodnienia pomiędzy rzeczownikiem a przymiotnikiem), po wykorzystanie relacji składniowych z parserów zależnościowych. Udostępnione na tej stronie listy wykorzystują podejście oparte na ograniczeniach morfo-syntaktycznych.  Dokładniejszy opis wykorzystanego podejścia można znaleźć w pracach: (Piasecki, Szpakowicz and Broda 2007), (Broda et al 2008), (Piasecki, Szpakowicz and Broda 2009) i (Broda and Piasecki 2011).


Na liście dystrybucyjnego podobieństwa semantycznego dla każdego opisanego słowa zostają wypisane k najbardziej podobnych słów do niego. Listy takie można pozyskać używając systemu SuperMatrix. Na dole strony można pobrać  dwie listy podobieństwa: dla rzeczowników (kgr4_pmi_cos_filtered_TF100_20best.7z)  i czasowników (kgr3_verbsim_lincos_TF100_20best.7z). Po rozpakowaniu listy mają prosty format tekstowy. Dla przykładu:

subst:truskawka
    0.396929       subst:pomidor
    0.374989       subst:winogrono
    0.36221       subst:brzoskwinia
    0.359661       subst:ananas
    0.358338       subst:czereśnia
    0.347417       subst:porzeczka
    0.343161       subst:jabłko
    0.340363       subst:wiśnia
    0.333139       subst:śliwka
    0.321351       subst:filogeneza
    0.314859       subst:malina
    0.313577       subst:seler
    0.308124       subst:papryka
    0.30514       subst:warzywo
    0.302994       subst:melon
    0.301603       subst:figa
    0.301409       subst:kalafior
    0.299205       subst:marchew
    0.298587       subst:kukurydza
    0.297907       subst:pomarańcza


Powyższy zapis pokazuje 20 najbardziej podobnych wyrazów dla  słowa truskawka. Liczby po lewej stornie oznaczają podobieństwo - im wyższa liczby, tym wyraz jest bardziej podobny do truskawka.


Uwaga! Dane udostępniamy na licencji Creative Commons (CC BY-NC-SA 3.0). W wypadku wykorzystania list podobieństwa uprzejmie prosimy o cytowanie pracy: (Broda and Piasecki 2011).



References



 

Lista frekwencyjna

Na tej stronie można ściągnąc listy frekwencyjne wydobyte z dużych korpusów tekstów. W skład tekstów wchodzą m.in. Korpus IPI PAN, Korpus Rzeczpospolitej, Wikipedię (zrzut z początku 2010 roku) i zbiór dużych dokumentów ściągniętych z Internetu. Razem korpusy mają około 1.8 miliarda tokenów. Do wygenerowania listy frekwencyjnej zostały wykorzystane narzędzia wchodzodzące w skład systemu SuperMatrix (Broda and Piasecki 2011).

 

Listę frekwencyjną udostępniamy w dwóch postaciach:

  • frequency_list_orth.txt - zawiera klasę gramatyczną, formę podstawową, formę tekstową i częstość w korpusach
  • frequency_list_base.txt - zawiera formy podstawowe słów i ich częstości w korpusach

Uwaga! Dane udostępniamy na licencji Creative Commons (CC BY-NC-SA 3.0)

 

References

 

 

 

Attachments:
Download this file (frequency_list_base.7z)frequency_list_base.7z[Lista frekwencyjna form bazowych]6330 kB
Download this file (frequency_list_orth.7z)frequency_list_orth.7z[Lista frekwencyjna form tekstowych]20277 kB

Krótko o Słowosieci

Wordnet jest siecią leksykalno-semantyczną, której węzłami są jednostki leksykalne, a nićmi spajającymi całość - relacje semantyczne pomiędzy jednostkami. Pierwszy wordnet na świecie - Princeton WordNet, powstał w latach 80. na Uniwersytecie Princeton i użyczył nazwy oraz struktury wielu takim bazom wiedzy dla innych języków. Istnieją bardzo liczne komercyjne i badawcze zastosowania wordnetów w informatyce i inżynierii oprogramowania, nade wszystko w sztucznej inteligencji i w przetwarzaniu języków.

Skuteczne wyszukiwanie informacji w nieustannie rosnącej ilości tekstu na Internecie wymaga starannej selekcji, w czym wordnety są z reguły bardzo pomocne. Jak każdy słownik, wordnet musi zawierać informację dokładną i - na ile się da - kompletną, toteż konstrukcja nowego wordnetu kosztuje wiele wysiłku. Prace zainicjowane kilkanaście lat temu doprowadziły do powstania wstępnych wersji wordnetów dla szeregu języków europejskich i azjatyckich.

Słowosieć to największy polski wordnet, konstruowany od 2006 roku przez Grupę Technologii Językowych Politechniki Wrocławskiej. Obecnie udostępniona wersja Słowosieci 3.0 liczy 170000 synsetów, 244000 jednostek leksykalnych oraz 670000 relacji leksykalnych (szczegółowy wykaz relacji w trakcie przygotowania).

 

Wytyczne do budowy Słowosieci

Słowosieć budowana jest przez lingwistów, pracujących pod nazdzorem koordynatora i przy wsparciu programistów. Podczas swojej pracy lingwiści posługują się wytycznymi, ułatwiającymi budowę spójnej sieci oraz zachowanie wysokiej zgodności pomiędzy poszczególnymi edytorami. Wszystkie te wytyczne zostały udostępnione na stronie Clarin.

Skrócone omówienie relacji w Słowosieci znajduje się tutaj.

 

Wykorzystanie Słowosieci

W 2009 udostępniona została w Internecie pierwsza wersja Słowosieci. Decyzją władz Politechniki Wrocławskiej Słowosieć jest udostępniana nieodpłatnie do wszelkich zastosowań (również komercyjnych) w oparciu o licencję wzorowaną na licencji Princeton WordNet. Od 2013 roku Słowosieć jest rozwijana w ramach części projektu Clarin. Jesteśmy otwarci na współpracę — zarówno o charakterze naukowym, jak i w ramach działań komercyjncych.

Obecnie Słowosieć jest dostępna w wersji serwisu WWW, uaktualnianej wraz z postępem prac. Została również stworzona aplikacja Słowosieci mobilnej, do pobrania w Google Play. Możliwe jest również przeglądanie Słowosieci w formie takiej, w jakiej widzą ją edytorzy Słowosieci, poprzez aplikację WNLoom-Viewer (do pobrania ze strony projektu Clarin). Krótki instruktaż korzystania z aplikacji znajduje się w materiałach z warsztatów Clarin.

Pełną bazę Słowosieci można pobrać po przesłaniu krótkiego formularza kontaktowego, znajdującego się na stronie WWW.

Udostępniamy również aplikację do rozbudowy Słowosieci WordnetLoom. W przypadku zainteresowania jej użyciem prosimy o kontakt.

 

Publikacje o Słowosieci

W celu dokładniejszego zapoznania się z naszą pracą, zachęcamy do odwiedzenia strony z publikacjami na temat Słowosieci.

W przypadku wykorzystania Słowosieci w Państwa pracy, prosimy o cytowanie następujących pozycji:

 

Dziękujemy za korzystanie ze Słowosieci i zachęcamy do kontaktu z nami

Zespół Słowosieci