WCRFT is a morphosyntactic tagger for Polish. The tagger brings together Conditional Random Fields (CRF) and tiered tagging.

The code is written in Python, but using C++ components:

  • CRF++ classifier,
  • WCCL: formalism for morphosyntactic feature generation (and its implementation),
  • corpus2: a library for rapid NLP application development, supporting positional tagsets.

Detailed description, source code download and installation instructions may be found at the project site.


 

Opis, przeznaczenie

W kontekście rzutowania leksykalnych sieci semantycznych, idea algorytmu Relaxation Labeling (RL) zaproponowanego przez autorów w [1], polega na określaniu wag potencjalnych powiązań pomiędzy parą synsetów, uwzględniając zadane wcześniej ograniczenia. Waga takiego powiązania jest odpowiednio modyfikowana: może być zwiększana bądź zmniejszana, jednak suma wag dla potencjalnych odpowiedników danego sysnetu zawsze musi wynosić 1. Podstawowa wersja agorytmu została rozszerzona o dodatkowe źródło informacji, nazwane niepodważalnymi powiązaniami. Algorytm uwzględnia wprowadzone ręcznie powiązania, traktując je jako powiązania, które nie mogą być zmodyfikowane.

 

Opracowane, dodatkowe zasoby

Opracowany został słownik dwujęzyczny polsko-angielski, na podstawie którego, generowane były pary potencjalnych odpowiedników. Słownik jest wynikiem połączenia istniejących słowników polsko-angielskich: [2], Wiktrionary oraz tłumaczeń dostępnych w Wikipedii.

 

Funkcjonalność

  • generowanie potencjalnych odpowiedników, bazując na ręcznie wprowadzonych połączeniach, aktualnej siatce relacji semantycznych (hiponimii, hiperonimii) oraz dowolnych ograniczeniach opisanych w [1],
  • uzupełnianie bazy danych o relacje potencjalnego odpowiednika,
  • wykonanie oceny wygenerowanych powiązań.

Wymagania systemowe, wymagane moduły itp.

  • zainstalowana aplikacja WorndetLoom
  • zainstalowana aplikacja do wykonywania algorytmu Relaxation Labeling (moduł pythonowy), wymagane jest dodanie ścieżki do aplikacji do zmiennej systemowej PYTHONPATH (w przypadku skorzystania z instalatora, ten proces jest wykonywany autonatycznie).
  • zainstalowanie aplikacji wordnet-www (uzupełnienie ściezki systemowej PYTHONPATH o ścieżke do wordnet-www).


Aplikacja uruchomieniowa

Główna aplikacja znajduje się w pliku run.py

Literatura

  1. Daud´e, J., Padró, L., Rigau, G.: Making wordnet mappings robust. In: Proceedings of the 19th Congreso de la Sociedad Espa˜nola para el Procesamiento del Lenguage Natural, SEPLN, Universidad Universidad de Alcal´a de Henares. Madrid, Spain (2003)
  2. Piotrowski, T., Saloni, Z.: Słownik Angielsko-Polski, Polsko-Angielski. (2002)

Attachments:

Download this file (rl-install-v8.7z)rl-install-v8.7z[Instalator RL-buttona --- wersja 8]42198 Kb
 

WMBT is a morphosyntactic tagger combining tiered tagging and Memory-Based Learning.

The tagger is suited for positional tagsets: for each tagset attribute a separate case base is gathered.

WMBT has been implemented in Python, although low-level routines are based on the following C++ libraries:

  • TiMBL, a popualar MBL framework,
  • WCCL, a toolkit for generation of morphosyntactic features,
  • Corpus2, a framework for dealing with annotated corpora and configurable tagsets.

WMBT itself is a disambiguation engine; to tag plain text, please use MACA first.

A detailed description (also on how to use MACA with WMBT), pointer to sources (GPL) and installation instructions may be found on the project site.

 


WordnetLoom – is an wordnet editor application built for the needs of the construction of a the largest Polish wordnet called plWordNet. WordnetLoom provides two means of interaction: a form-based, implemented initially, and a visual, graph-based introduced recently. The visual, graph-based interactive presentation of the wordnet structure enables browsing and its direct editing on the structure of lexico-semantic relations and synsets. WordnetLooms works in a distributed environment, i.e. several linguists can work simulanuously from different sites on the same central database.


WordnetLoom is written in Java 1.6, can be run on several operating systems and requires MySQL database server. Provided package contains empty database schema (only plWordnet relation types are included).

For installation instruction please consult README file included in the package.

WordnetLoom can import Princeton Wordnet file format. Import was tested with Princeton Wordnet 3.0. Default plWordNet relation types provide mapping from Princeton Wordnet relations.


For more information please consult our journal article (also included in the attachments):

@ARTICLE{MarPiaWNLoomIJDMMMM:11,

  author = {Michał Marci\'nczuk and Maciej Piasecki and Radosław Ramocki
    and Marek Maziarz},
  title = {{WordnetLoom}: a Wordnet Development System Integrating Form-based
    and Graph-based Perspectives},
  journal = {International Journal of Data Mining, Modelling and Management},
  year = {2011},
  note = {Accepted for publishing}
}


plWordNet database can be directly obtained from this page: download.

Any bugs and problems can be reported on our issue tracker site.

The WordnetLoom was published under the GNU GPLv3 license. The source code is available on our GIT repository at: http://nlp.pwr.wroc.pl/wordnetloom.git.

Attachments:

Download this file (WordnetLoom-1.64.0.7z)WordnetLoom.7z[WordnetLoom 1.64.0]41896 Kb
Download this file (WordnetLoom.pdf)WordnetLoom.pdf[Journal article about WordnetLoom.]1395 Kb
 

WCCL Relation is part of the Serel package. After installing the package you can use the serel-wccl-recognize command as follows:

serel-wccl-recognize -h

Usage: serel-wccl-recognize input file|directory -r rules file|directory [options]

Options:
  --version             show program's version number and exit
  -h, --help            show this help message and exit
  -r RULES, --rules=RULES
                        single file or directory with .rewccl|.wccl files
  -o OUTPUT, --output=OUTPUT
                        output (console|directory|in-place|rewrite)
  -f FORMAT, --format=FORMAT
                        optput format (csv|ccl)
  -t TAGSET, --tagset=TAGSET
                        tagset
  -b, --batch           batch mode
  --rewrite             rewrite existing relation files
  -n, --only_new        do not rewrite old relations

You can test the command using the attached files:

  wget http://www.nlp.pwr.wroc.pl/ltg/attachments/article/63/00100511.xml
  wget http://www.nlp.pwr.wroc.pl/ltg/attachments/article/63/city_in_country.rewccl
  serel-wccl-recognize 00100511.xml -r city_in_country.rewccl

and you should see the following output:

  <!--?xml version="1.0" encoding="utf-8"?-->
  <relations>
	<rel name="location">
		<from chan="city_nam" sent="sent2">1</from>
		<to chan="country_nam" sent="sent2">1</to>
	</rel>
  </relations>

Attachments:

Download this file (00100511.xml)00100511.xml[a sample file from the KPWr 1.1 corpus annotated with proper names]26 Kb
Download this file (city_in_country.rewccl)city_in_country.rewccl[a sample WCCL Relation rule]0.1 Kb