WCRFT is a morphosyntactic tagger for Polish. The tagger brings together Conditional Random Fields (CRF) and tiered tagging.
The code is written in Python, but using C++ components:
- CRF++ classifier,
- WCCL: formalism for morphosyntactic feature generation (and its implementation),
- corpus2: a library for rapid NLP application development, supporting positional tagsets.
Detailed description, source code download and installation instructions may be found at the project site.
- Details
- Hits: 4684
Opis, przeznaczenie
W kontekście rzutowania leksykalnych sieci semantycznych, idea algorytmu Relaxation Labeling (RL) zaproponowanego przez autorów w [1], polega na określaniu wag potencjalnych powiązań pomiędzy parą synsetów, uwzględniając zadane wcześniej ograniczenia. Waga takiego powiązania jest odpowiednio modyfikowana: może być zwiększana bądź zmniejszana, jednak suma wag dla potencjalnych odpowiedników danego sysnetu zawsze musi wynosić 1. Podstawowa wersja agorytmu została rozszerzona o dodatkowe źródło informacji, nazwane niepodważalnymi powiązaniami. Algorytm uwzględnia wprowadzone ręcznie powiązania, traktując je jako powiązania, które nie mogą być zmodyfikowane.
Opracowane, dodatkowe zasoby
Opracowany został słownik dwujęzyczny polsko-angielski, na podstawie którego, generowane były pary potencjalnych odpowiedników. Słownik jest wynikiem połączenia istniejących słowników polsko-angielskich: [2], Wiktrionary oraz tłumaczeń dostępnych w Wikipedii.
Funkcjonalność
- generowanie potencjalnych odpowiedników, bazując na ręcznie wprowadzonych połączeniach, aktualnej siatce relacji semantycznych (hiponimii, hiperonimii) oraz dowolnych ograniczeniach opisanych w [1],
- uzupełnianie bazy danych o relacje potencjalnego odpowiednika,
- wykonanie oceny wygenerowanych powiązań.
Wymagania systemowe, wymagane moduły itp.
- zainstalowana aplikacja WorndetLoom
- zainstalowana aplikacja do wykonywania algorytmu Relaxation Labeling (moduł pythonowy), wymagane jest dodanie ścieżki do aplikacji do zmiennej systemowej PYTHONPATH (w przypadku skorzystania z instalatora, ten proces jest wykonywany autonatycznie).
- zainstalowanie aplikacji wordnet-www (uzupełnienie ściezki systemowej PYTHONPATH o ścieżke do wordnet-www).
Aplikacja uruchomieniowa
Główna aplikacja znajduje się w pliku run.py
Literatura
- Daud´e, J., Padró, L., Rigau, G.: Making wordnet mappings robust. In: Proceedings of the 19th Congreso de la Sociedad Espa˜nola para el Procesamiento del Lenguage Natural, SEPLN, Universidad Universidad de Alcal´a de Henares. Madrid, Spain (2003)
- Piotrowski, T., Saloni, Z.: Słownik Angielsko-Polski, Polsko-Angielski. (2002)
- Details
- Hits: 4741
WMBT is a morphosyntactic tagger combining tiered tagging and Memory-Based Learning.
The tagger is suited for positional tagsets: for each tagset attribute a separate case base is gathered.
WMBT has been implemented in Python, although low-level routines are based on the following C++ libraries:
- TiMBL, a popualar MBL framework,
- WCCL, a toolkit for generation of morphosyntactic features,
- Corpus2, a framework for dealing with annotated corpora and configurable tagsets.
WMBT itself is a disambiguation engine; to tag plain text, please use MACA first.
A detailed description (also on how to use MACA with WMBT), pointer to sources (GPL) and installation instructions may be found on the project site.
- Details
- Hits: 4637
WordnetLoom – is an wordnet editor application built for the needs of the construction of a the largest Polish wordnet called plWordNet. WordnetLoom provides two means of interaction: a form-based, implemented initially, and a visual, graph-based introduced recently. The visual, graph-based interactive presentation of the wordnet structure enables browsing and its direct editing on the structure of lexico-semantic relations and synsets. WordnetLooms works in a distributed environment, i.e. several linguists can work simulanuously from different sites on the same central database.
WordnetLoom is written in Java 1.6, can be run on several operating systems and requires MySQL database server. Provided package contains empty database schema (only plWordnet relation types are included).
For installation instruction please consult README file included in the package.
WordnetLoom can import Princeton Wordnet file format. Import was tested with Princeton Wordnet 3.0. Default plWordNet relation types provide mapping from Princeton Wordnet relations.
For more information please consult our journal article (also included in the attachments):
@ARTICLE{MarPiaWNLoomIJDMMMM:11,
and Marek Maziarz},
title = {{WordnetLoom}: a Wordnet Development System Integrating Form-based
and Graph-based Perspectives},
journal = {International Journal of Data Mining, Modelling and Management},
year = {2011},
note = {Accepted for publishing}
}
plWordNet database can be directly obtained from this page: download.
Any bugs and problems can be reported on our issue tracker site.
The WordnetLoom was published under the GNU GPLv3 license. The source code is available on our GIT repository at: http://nlp.pwr.wroc.pl/wordnetloom.git.
- Details
- Hits: 6351
WCCL Relation is part of the Serel package. After installing the package you can use the serel-wccl-recognize command as follows:
serel-wccl-recognize -h Usage: serel-wccl-recognize input file|directory -r rules file|directory [options] Options: --version show program's version number and exit -h, --help show this help message and exit -r RULES, --rules=RULES single file or directory with .rewccl|.wccl files -o OUTPUT, --output=OUTPUT output (console|directory|in-place|rewrite) -f FORMAT, --format=FORMAT optput format (csv|ccl) -t TAGSET, --tagset=TAGSET tagset -b, --batch batch mode --rewrite rewrite existing relation files -n, --only_new do not rewrite old relations
You can test the command using the attached files:
wget http://www.nlp.pwr.wroc.pl/ltg/attachments/article/63/00100511.xml wget http://www.nlp.pwr.wroc.pl/ltg/attachments/article/63/city_in_country.rewccl serel-wccl-recognize 00100511.xml -r city_in_country.rewccl
and you should see the following output:
<!--?xml version="1.0" encoding="utf-8"?--> <relations> <rel name="location"> <from chan="city_nam" sent="sent2">1</from> <to chan="country_nam" sent="sent2">1</to> </rel> </relations>
- Details
- Hits: 5231
Page 1 of 2