Zadanie #2170

Chunker słownikowy

Added by Michał Marcińczuk about 12 years ago. Updated about 12 years ago.

Status:ZamkniętyStart date:31 Aug 2011
Priority:NormalnyDue date:
Assignee:Maciej Janicki% Done:

100%

Category:-
Target version:-

Description

Wejście: plik z nazwami własnymi i słowami pospolitymi.

Plik z nazwami własnymi w formacie: "typ_nazwy_własnej treść", np.:

PERSON_FIRST_NAM Adam
CITY_NAM Gorzów Wlkp.
...

Plik ze słowami pospolitymi będzie zawierał listę słów pospolitych jedno pod drugim, np.:

kot
dom
piłka nożna

Chunkery:
  • dict-compile:plik_z_nazwami.txt:plik_z_pospolitymi.txt:slownik_serializowany.bin -- kompiluje podane słowniki,
  • dict-load:slownik_serializowany.bin -- wczytuje wcześniej skompilowany słownik.

Zasada działania:
Wszystkie wyrażenia składające się z jednego słowa, które są jednoznaczne (tylko jedna kategoria nazw własnych jest przypisana do danego wyrażenia) i nie występują na liście słów pospolitych zostaną oznaczone kategorią zgodnie ze słownikiem.

Wszystkie wyrażenia składające się z więcej niż jednego słowa, które są jednoznaczne zostaną oznaczone kategorią zgodnie ze słownikiem.

Niejednoznaczne nazwy własne będą ignorowane.

W trakcie kompilacji ze słownika nazw własnych można usunąć wszystkie niejednoznacze nazwy. Usunięcie ich zmniejszy liczbę słów do przeszukiwania.

Dump bazy z nazwami znajduje się na share w /share/information_extraction/slowniki lexicon_2011-03-29.7z, a słowa pospolite w pliku sjpPWN-gaze.txt. Należy przygotować listę nazw własnych w odpowiednim formacie na podstawie bazy danych,

History

#1 Updated by Maciej Janicki about 12 years ago

  • % Done changed from 0 to 30

#2 Updated by Maciej Janicki about 12 years ago

  • % Done changed from 30 to 100

#3 Updated by Maciej Janicki about 12 years ago

  • Status changed from Przypisany to Zamknięty

Also available in: Atom PDF