Modele danych

Konfiguracja

Przed pobraniem modelu należy wcześniej pobrać i skonfigurować moduł liner2. W celu uruchomienia modelu należy pobrać odpowiednią paczkę, a następnie ją rozpakować. Paczki zawierają wszystkie potrzebne dane, łącznie z danymi treningowymi, więc te same zasoby mogą pojawiać się w kilku paczkach.

Uruchomienie modelu sprowadza się do uruchomienia moduły liner2 z parametrem -ini <nazwa>, gdzie <nazwa> to ścieżka do pliku ini danego modelu. Wewnątrz każdego znajdują się dwa pliki ini:

  • nazwa.ini --- plik konfiguracyjny, który należy wskazać przy pomocy parametru -ini,
  • nazwa_features.ini --- plik z definicją cech.

Lista modeli

bootstrap1 (listopad 2011)

Paczka: liner2-model-bootstrap1.7z (sftp://share:sz$35rx-z@nlp.pwr.wroc.pl/share/information_extraction/liner2-models/model-bootstrap1.7z)

Ini: model-bootstrap1/bootstrap1.ini

Opis:

Model rozpoznaje 56 kategorii nazw własnych, nastawiony na wysoką precyzje i kompletność.

Modele statystyczne zostały stworzone na następujących korpusach:
  • CSER --- raporty giełdowe,
  • CEN --- wiadomości gospodarcze z wikinews,
  • IK --- dokumenty z podkorpusu Wikinews z korpusu InfiKorp.
Chunkery wykorzystywane w kaskadzie:
  • 5 kategorii nazw własnych, głosowanie większościowe 3 modeli CRF (CSER, CEN i IK),
  • 56 kategorii nazw własnych, głosowanie większościowe 3 modelu CRF (CSER, CEN i IK),
  • 5 kategorii nazw własnych CRF na łączonym korpusie CSER+CEN+IK,
  • 56 kategorii nazw własnych CRF na łączonym korpusie CSER+CEN+IK,
  • heurystyki (person,road,road-prefix,city),
  • jednoznaczny chunker słownikowy (COUNTRY_NAM,CITY_NAM).

Konfiguracja cech: Podstawowy zestaw cech z Cicling 2012 (bez optymalizacji)

Tagset: nkjp (morfeusz-nkjp)

cicling2012 (październik 2011)

Paczka: liner2-model-cicling2012.7z

Ini: cicling2012.ini

Opis:

Model rozpoznaje 5 kategorii nazw własnych.

Modele statystyczne zostały stworzone na następujących korpusach:
  • CSER --- raporty giełdowe.

Konfiguracja cech: Podstawowy zestaw cech z Cicling 2012 (z optymalizacją -- nowe cechy, redukcja cech).