Liner2 to narzędzie do rozpoznawania i znakowania nazw własnych w tekście. Liner2 dostarczony jest z gotowymi modelami do rozpoznawania nazw własnych w polskich tekstach m.in. 56 kategorii nazw własnych, 5 kategorii nazw własnych, 4 kategorie MUC oraz granice nazw własnych bez klasyfikacji. Moduł umożliwia także definiowanie własnych potoków przetwarzania z wykorzystaniem chunkerów słownikowych, regułowych (m.in. w oparciu o reguły WCCL) oraz statystycznych (w oparciu o modele CRF).

Pobranie

  • Liner2 v2.4 (24 listopada 2014)
    • podział na moduły (g419-corpus, g419-tools, g419-liner2-api, g419-liner2-cli, g419-liner2-daemon),
    • reorganizacja pliku konfiguracyjnego (konfiguracja chunkerów poprzez pliki ini),
    • ujednolicenie formatów wejścia/wyjścia (batch:x, cv:x, x), x={ccl,iob},
    • zmiana domyślnego tagera z wcrft na wcrft2,
    • dodanie AnnotationCRFClassifier,
    • nowe generatory cech tokenów: parenthesis, quotation, nospace, top4hyper,
    • tryb konwersji korpusów pomiędzy formatami,
    • konwertery na trybu konwersji: annotation-filter-by-regex, annotation-flatten, annotation-mapping, annotation-remove-nested, expand-features,
    • obsługa wielu modeli w trybie daemon.
  • Liner2 v2.3 (31 maja 2013)
    • przyspieszenie działania,
    • reimplementacja modułu do generowania cech na Jave i usunięcie zależności od modułów Pythona,
    • obsługa anotacji nieciągłych wczytywanych z plików ccl,
    • obsługa atrybutu head dla formatu ccl (odczyt i zapis plików ccl),
    • zachowanie numeracji istniejących anotacji w plikach wejściowych.
  • Liner2 v2.2.1 (2 maja 2013)
    • aktualizacja CRF++ do wersji 0.57,
    • przyspieszenie wczytywania plików w formacie CCL,
    • obsługa długich zdań,
    • naprawienie błędu z brakującym pakietem dla modułu NERD,
    • uzupełnienie plików INSTALL i README.
  • Liner2 v2.2 (26 listopada 2012) — wersja wycofana
    • moduł do propagacji nazw własnych.
  • Liner2 v2.1 (17 kwietnia 2012)

Instalacja

 

Modele danych

  • Liner2.4
    • Liner2.4 Model Pack — zestaw trzech modeli do rozpoznawania jednostek identyfikacyjnych. Modele statystyczne zostały wyuczone na korpusie KPWr 1.2.7 (część train i tune).
  • Liner2.3
    • Liner2 Models Fat Pack — zestaw sześciu modeli do rozpoznawania nazw własnych dla języka polskiego. Modele statystyczne zostały wyuczone na korpusie KPWr 1.1 oraz 697 dokumentach z korpusu CEN 1.0. Pozostałe 100 dokumentów z korpusu CEN 1.0 zostało użytych do przetestowania modeli. Wyniki testów znajdują się w paczce oraz są dostępne na stronie Liner2 wyniki. Zawiera następujące modele:
      • 56nam (config-56nam.ini) — rozpoznaje 56 kategorii nazw własnych,
      • 5nam (config-5nam.ini) — rozpoznaje 5 kategorii nazw własnych (imiona, nazwiska, nazwy państwa, miast i ulic),
      • MUC (config-muc.ini i config-muc-fast.ini) — rozpoznaje 4 ogólne kategorie nazw (nazwy osób, organizacji, lokalizacji i inne). Dostępny w dwóch wariantach pełny i uproszczony ze zredukowaną liczbą cech (przyspieszone działanie),
      • NAM (config-nam.ini i config-nam-fast.ini) — rozpoznaje granice nazw własnych. Dostępny w dwóch wariantach pełny i uproszczony ze zredukowaną liczbą cech (przyspieszone działanie).
  • Liner 2.2
    • model-nam-v1.7z — model do wykrywania granic nazw własnych (bez kategoryzacji).
  • Liner 2.1 and 2.2

Cytowanie

Model danych

In this paper we present several optimizations introduced to Conditional Random Fields-based model for proper names recognition in Polish running texts. The proposed optimizations refer to word-level segmentation problems, gazetteers incompleteness, problem of unambiguous generalization features, feature construction and selection, and finally recognition of common proper names on the basis of external sources of knowledge. The problem of proper name recognition is limited to recognition of person first names and surnames, names of countries, cities and roads. The evaluation is performed in two ways: a single domain evaluation using 10-fold cross validation on a Corpus of Stock Exchange Reports and a cross-domain evaluation on a Corpus of Economic News. An additional corpus of Wikipedia articles, namely InfiKorp is used in the feature selection. Finally, we evaluate three configurations of proposed modifications. The top configuration improved the final result from 94.53% to 95.65% of F-measure for single domain and from 70.86% to 79.63% for cross-domain evaluation.

Liner2 framework

Osoba odpowiedzialna

Michał Marcińczuk

Do pobrania

Liner2.5 rc3

Zasoby powiązane