Na tej stronie ukażą się informacje związane z narzędziem PoLem

Borsuk to prototyp inteligentnej wyszukiwarki semantycznej dla j. polskiego, która wyszukuje fragmenty tekstu zawierające możliwe najtrafniejszą odpowiedź na zadane pytanie w języku naturalnym.

Działające demo prototypu jest dostępne pod linkiem http://borsuk.clarin-pl.eu

Zrzuty ekranu

References

  • Marcińczuk, M., Radziszewski, A., Piasecki, M., Piasecki, D. & Ptak, M (2013a). Evaluation of baseline information retrieval for Polish open-domain Question Answering system. In Proceedings of the International Conference Recent Advances in Natural Language Processing RANLP 2013, pages 428-435. Hissar, Bulgaria : INCOMA Ltd. Shoumen, BULGARIA.
  • Marcińczuk, M., Radziszewski, A., Piasecki, M., Piasecki, D. & Ptak, M (2013b). Open dataset for development of Polish Question Answering systems. In Proceedings of 6th Language {&} Technology Conference LTC 2013. Pozna'n.

Krótko o WordnetLoomie

 

WordnetLoom to aplikacja do edycji wordnetu. Został zbudowany dla potrzeb konstrukcji największego polskiego wordnetu o nazwie Słowosieć. Aplikacja dostarcza dwa sposoby interakcji: oparty o formularze (zaimplementowany początkowo, nierozwijany) oraz w perspektywie wizualizacji grafu (rozwijany i aktualizowany na bieżąco). Perspektywa wizualizacji oparta o prezentację interaktywnego grafu wordnetu umożliwia przeglądanie i bezpośrednią edycję struktury relacji leksykalno-semantycznych i synsetów. WordnetLoom działa w środowisku rozproszonym, tzn. wielu lingwistów może pracować jednocześnie z centralną bazą danych.

WordnetLoom został napisany w środowisku Java, dzięki czemu może być uruchomiony na wielu systemach operacyjnych. Do działania wymaga serwera bazy danych MySQL. W załączonym pakiecie znajduje się pusty schemat bazy danych (tylko standardowo typy relacji Słowosieci zostały dołączone).

WordnetLoom umożliwia import bazy w formacie Princeton Wordnet. Import został przetestowany z Princeton Wordnetem w wersji 3.0. Domyślne typy relacji Słowosieci zawierają rzutowanie na relacje Princeton Wordnetu.

 

Wykorzystanie WordnetLooma

WordnetLoom został opublikowany na licencji GNU GPLv3, umożliwiającej wykorzystanie do celów prywatnych, naukowych i komercyjnych. W celu pobrania i zainstalowania aplikacji prosimy o kontakt.

Wszelkie błędy i problemy związane z WordnetLoomem mogą zostać zgłoszone w naszym systemie raportowania.

 

Publikacje

W celu dokładniejszego zapoznania się z naszą pracą, zachęcamy do odwiedzenia strony z publikacjami na temat WordnetLooma [strona w przygotowaniu].

W przypadku wykorzystania WordnetLooma w Państwa pracy, prosimy o cytowanie następującej pozycji:

Toki to tokeniser, tj. konfigurowalny moduł do podziału tekstu na segmenty (tokeny) i zdania.

Narzędzie ma kilka zalet:

  • obsługa unikodu,
  • implementacja w C++ (nie ma więc dużego narzutu na uruchomienie),
  • reguły podziału na tokeny definiowane są w prosty plikach INI,
  • do każdego tokenu reguły mogą przypisać etykietkę określającą wstępną klasyfikację (np. liczba, data, ciąg z łącznikiem),
  • do każdego tokenu przypisywana jest przybliżona informacja o ilości białych znaków, które przed nim nastąpił;
  • Toki dostępny jest jako proste narzędzie konsolowe oraz biblioteka dynamiczna z prostym API (przykład użycia API dostępny wraz z kodem),
  • obsługa standardu SRX opisującego reguły podziału na zdania; jest to prawdopodobnie pierwsza open source'owa implementacja tego standardu w C++;
  • wraz z kodem dostarczamy reguły podziału na zdania autorstwa Marcina Miłkowskiego.

Kody źródłowe

Kody źródłowe projektu udostępniono na licencji GNU GPL 3.0. Znajdują się one na repozytorium gitowym:

 

git clone http://nlp.pwr.wroc.pl/toki.git

 

Instalacja

 

Instalacja narzędzia wymaga następujących zależności:

  • CMake (system kompilacji, 2.6 lub nowszy)
  • ICU (przynajmniej 4.2)
  • Boost (testowano na wersach 1.41 i 1.42)
  • Loki (libloki-dev)
  • libxml++2.6
  • libpwrutils dostępny z repozytorium corpus2

 

Kody źródłowe pwrutils można pobrać w następujący sposób:

 

git clone http://nlp.pwr.wroc.pl/corpus2.git

 

Do użycia narzędzia Toki wystarczy zainstalować libpwrutils. Jeśli planowane jest użycie innych naszych narzędzi, zalecamy instalację całego corpus2. Więcej szczegółów na temat jego wymagań można znaleźć na stronie projektu MACA. Instalację pwrutils/corpus2 należy przeprowadzić za pomocą systemu CMake, w sposób analogiczny jak opisany poniżej.

 

Do instalacji Tokiego należy użyć systemu CMake:

 

mkdir toki/bin

cd toki/bin

cmake ..

# potwierdzić standardowe wartości parametrów enterem

# przeanalizować wyjście; jeśli zależności niespełnione, doisntalować brakujące paczki, usunąć CMakeCache.txt i uruchomić cmake ponowniecmake

make

sudo make install

sudo ldconfig

 

WMBT to tager morfo-syntaktyczny oparty o technikę uczenia pamięciowego (Memory-Based Learning).

WMBT dostosowany jest do tagsetów pozycyjnych: działa warstwowo (tiered tagging), gdzie dla każdego atrybutu z tagsetu tworzona jest osobna baza przypadków.

Tager został napisany w Pythonie, chociaż niskopoziomowe funkcje korzystają z następujących bibliotek napisanych w C++:

  • klasyfikator pamięciowy TiMBL,
  • formalizm opisu cech morfo-syntaktycznych WCCL,
  • biblioteka corpus2 do obsługi korpusów oznakowanych i tagsetów.

Do tagowania czystego tekstu konieczne jest użycie analizatora morfologicznego, polecamy w tym celu system MACA.


Szczegółowy opis, dostęp do kodów źródłowych (GPL) oraz instrukcja instalacji znajdują się na stronie projektu.