News

Iobber: New chunker (iobber) ready to use

Added by Adam Radziszewski over 10 years ago

IOBBER is available at http://nlp.pwr.wroc.pl/iobber.git. The software is bundled with ready-to-use model trained on KPWr.

WMBT: WMBT is able to tag unknown words

Added by Adam Radziszewski almost 11 years ago

The previous version of WMBT could not recover tags for tokens where morph analyser failed. The current version (as in the repository) is enhanced with a simple algorithm for guessing unknown words. This algorithm is not intended to replace the guesser used before, but just to recover those cases where the external guesser fails.

The algorithm brings improvement from 88.5507% to 89.6983% (10% drop in error rate) as tested on NKJP (lower bound resulting from plain text tests, which are probably the closest approximation to real-world tagging so far made).

NOTE: the WMBT's guessing algorithm predicts tags only, lemmas are not guessed (guessed lemma = orth.lowercase()).

To use the best results for the NKJP tagset:
  1. get the newest version of WMBT code from the repository
  2. download model_nkjp10_guess.tar.bz2 as posted on the main wiki site
  3. use MACA configuration for morfeusz SGJP with guesser (morfeusz-nkjp-official-guesser or morfeusz-nkjp-guesser)
  4. use WMBT with nkjp-guess.ini config (as in here)

WCCL: Przeredagowana specyfikacja języka

Added by Adam Radziszewski over 11 years ago

Przeredagowałem specyfikację. Nowa specyfikacja jest podzielona wg rzeczywistych podjęzyków a nie wg podziału prac. Stare dokumenty (np. SpecyfikacjaL0) są wciąż dostępne, lecz mogą być nieaktualne. Patrz: Specyfikacja.

WCCL: Nowości w języku

Added by Adam Radziszewski almost 12 years ago

Spisujemy na bieżąco zmiany języka CCL w stosunku do JOSKIPI. Chodzi zarówno o zmiany składni, jak i nową funkcjonalność. Czytaj dalej: Nowości

Inforex: Wymagania do nowego edytora

Added by Bartosz Broda about 12 years ago

Założyłem stronę wiki z wymaganiami dot. nowego(rozszerzonego) edytora anotacji.

WCCL: Zbieramy wymagania

Added by Adam Radziszewski about 12 years ago

Proszę to przejrzeć i dla zgłoszonych przez siebie wymagań napisać rzeczywiste scenariusze użycia. http://nlp.pwr.wroc.pl/redmine/documents/33

Maca - analizator: Zbieramy błędy Morfeusza (5 comments)

Added by Adam Radziszewski over 12 years ago

Mamy już mechanizm, który pozwala na łatanie dziur w Morfeuszu. Błędy można naprawiać poprzez stworzenie własnego słownika, który zawiera chciane przez nas analizy. Słownik ten ma wyższy priorytet niż Morfeusz, więc jeśli znajdziemy formę w nim, nie dopuścimy Morfeusza do działania.

W związku z tym, jeśli trafisz na błąd, proszę wpisz go tu jako komentarz. Wystarczy podać formę i co złego robi z nią Morfeusz (np. że brakuje analizy biernikowej, są bzdurne analizy, forma jest nierozpoznawana itp.)

Póki co zgromadziłem te:

strach (były nadmiarowe analizy, strach to nie ster:pl:loc)
krem (nadmiarowe analizy)
krów (j.w.)
specjalistów, kolegów (brak biernika)
informatyk -- wszystkie formy mają trzy rodzaje męskie
informatyków (brak biernika)
księcia (brak biernika)

(1-7/7)

Also available in: Atom