Zadanie #2170
Chunker słownikowy
Status: | Zamknięty | Start date: | 31 Aug 2011 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | Maciej Janicki | % Done: | 100% | |
Category: | - | |||
Target version: | - |
Description
Wejście: plik z nazwami własnymi i słowami pospolitymi.
Plik z nazwami własnymi w formacie: "typ_nazwy_własnej treść", np.:
PERSON_FIRST_NAM Adam CITY_NAM Gorzów Wlkp. ...
Plik ze słowami pospolitymi będzie zawierał listę słów pospolitych jedno pod drugim, np.:
kot dom piłka nożnaChunkery:
- dict-compile:plik_z_nazwami.txt:plik_z_pospolitymi.txt:slownik_serializowany.bin -- kompiluje podane słowniki,
- dict-load:slownik_serializowany.bin -- wczytuje wcześniej skompilowany słownik.
Zasada działania:
Wszystkie wyrażenia składające się z jednego słowa, które są jednoznaczne (tylko jedna kategoria nazw własnych jest przypisana do danego wyrażenia) i nie występują na liście słów pospolitych zostaną oznaczone kategorią zgodnie ze słownikiem.
Wszystkie wyrażenia składające się z więcej niż jednego słowa, które są jednoznaczne zostaną oznaczone kategorią zgodnie ze słownikiem.
Niejednoznaczne nazwy własne będą ignorowane.
W trakcie kompilacji ze słownika nazw własnych można usunąć wszystkie niejednoznacze nazwy. Usunięcie ich zmniejszy liczbę słów do przeszukiwania.
Dump bazy z nazwami znajduje się na share w /share/information_extraction/slowniki lexicon_2011-03-29.7z, a słowa pospolite w pliku sjpPWN-gaze.txt. Należy przygotować listę nazw własnych w odpowiednim formacie na podstawie bazy danych,
History
#1 Updated by Maciej Janicki about 12 years ago
- % Done changed from 0 to 30
#2 Updated by Maciej Janicki about 12 years ago
- % Done changed from 30 to 100
#3 Updated by Maciej Janicki about 12 years ago
- Status changed from Przypisany to Zamknięty