Modele danych¶
Konfiguracja¶
Przed pobraniem modelu należy wcześniej pobrać i skonfigurować moduł liner2. W celu uruchomienia modelu należy pobrać odpowiednią paczkę, a następnie ją rozpakować. Paczki zawierają wszystkie potrzebne dane, łącznie z danymi treningowymi, więc te same zasoby mogą pojawiać się w kilku paczkach.
Uruchomienie modelu sprowadza się do uruchomienia moduły liner2 z parametrem -ini <nazwa>, gdzie <nazwa> to ścieżka do pliku ini danego modelu. Wewnątrz każdego znajdują się dwa pliki ini:
- nazwa.ini --- plik konfiguracyjny, który należy wskazać przy pomocy parametru -ini,
- nazwa_features.ini --- plik z definicją cech.
Lista modeli¶
bootstrap1 (listopad 2011)¶
Paczka: liner2-model-bootstrap1.7z (sftp://share:sz$35rx-z@nlp.pwr.wroc.pl/share/information_extraction/liner2-models/model-bootstrap1.7z)
Ini: model-bootstrap1/bootstrap1.ini
Opis:
Model rozpoznaje 56 kategorii nazw własnych, nastawiony na wysoką precyzje i kompletność.
Modele statystyczne zostały stworzone na następujących korpusach:- CSER --- raporty giełdowe,
- CEN --- wiadomości gospodarcze z wikinews,
- IK --- dokumenty z podkorpusu Wikinews z korpusu InfiKorp.
- 5 kategorii nazw własnych, głosowanie większościowe 3 modeli CRF (CSER, CEN i IK),
- 56 kategorii nazw własnych, głosowanie większościowe 3 modelu CRF (CSER, CEN i IK),
- 5 kategorii nazw własnych CRF na łączonym korpusie CSER+CEN+IK,
- 56 kategorii nazw własnych CRF na łączonym korpusie CSER+CEN+IK,
- heurystyki (person,road,road-prefix,city),
- jednoznaczny chunker słownikowy (COUNTRY_NAM,CITY_NAM).
Konfiguracja cech: Podstawowy zestaw cech z Cicling 2012 (bez optymalizacji)
Tagset: nkjp (morfeusz-nkjp)
cicling2012 (październik 2011)¶
Paczka: liner2-model-cicling2012.7z
Ini: cicling2012.ini
Opis:
Model rozpoznaje 5 kategorii nazw własnych.
Modele statystyczne zostały stworzone na następujących korpusach:- CSER --- raporty giełdowe.
Konfiguracja cech: Podstawowy zestaw cech z Cicling 2012 (z optymalizacją -- nowe cechy, redukcja cech).