WMBT to tager morfo-syntaktyczny oparty o technikę uczenia pamięciowego (Memory-Based Learning).

WMBT dostosowany jest do tagsetów pozycyjnych: działa warstwowo (tiered tagging), gdzie dla każdego atrybutu z tagsetu tworzona jest osobna baza przypadków.

Tager został napisany w Pythonie, chociaż niskopoziomowe funkcje korzystają z następujących bibliotek napisanych w C++:

  • klasyfikator pamięciowy TiMBL,
  • formalizm opisu cech morfo-syntaktycznych WCCL,
  • biblioteka corpus2 do obsługi korpusów oznakowanych i tagsetów.

Do tagowania czystego tekstu konieczne jest użycie analizatora morfologicznego, polecamy w tym celu system MACA.


Szczegółowy opis, dostęp do kodów źródłowych (GPL) oraz instrukcja instalacji znajdują się na stronie projektu.