Zadanie #5475

Leksykon jest niepotrzebny

Added by Adam Radziszewski over 9 years ago. Updated over 9 years ago.

Status:ZamkniętyStart date:04 Jun 2014
Priority:NormalnyDue date:
Assignee:Adam Radziszewski% Done:

100%

Category:-
Target version:c++

Description

Zapomniałem wyjaśnić, że generowanie leksykonu de facto tagerowi jest niepotrzebne i lepiej z tego zrezygnować, by nie mnożyć linii kodu.
Pythonowy tager WCRFT był przeróbką tagera WMBT (pamięciowego). WMBT używał tej funkcji, skopiowałem ją stamtąd. Teoretycznie WCRFT mógłby kiedyś też korzystać z leksykonów, ale do tej pory to się nie działo, więc szkoda zachodu, by pisać i testować te funkcje… więc lepiej je sobie darować — mniej kodu to mniej problemów.

Z modelu można też wywalić plik .lex, bo to jest wygenerowany leksykon.

History

#1 Updated by Adam Radziszewski over 9 years ago

Przy okazji istotna uwaga techniczna: do konwersji (i sprawdzenia) wielkości liter nie używaj standardowych funkcji z boosta — one nie rozumieją unikodu i zadziałają tylko dla niektórych znaków. Te funkcje są bezpieczne tylko dla znaków ASCII (np. nazwy configów, atrybutów z tagsetu itp.), ale jeśli chodzi o słowa, to należy korzystać z metod klasy UnicodeString (biblioteka ICU). Ten słownik i tak nie będzie potrzebny, więc nie ma co teraz tego naprawiać, ale uwaga na przyszłość (podobny kawałek kodu znalazłem i naprawiłem przy słowach nieznanych).

#2 Updated by Adam Radziszewski over 9 years ago

POPRAWKA: leksykon (lista słów, plik .lex) jest niepotrzebny, natomiast lista tagów słów nieznanych jest potrzebna.

#3 Updated by Radosław Warzocha over 9 years ago

  • Status changed from Nowy to Gotowy
  • Assignee changed from Radosław Warzocha to Adam Radziszewski
  • % Done changed from 0 to 100

Przerobiłem tak, że wczytywania leksykonu nie ma, ale zostało wczytywanie nieznanych tagów.

Nie do końca jestem zadowolony z funkcji Tagger::filter_unknown_tags. Można by było ją zapisać bardziej ogólnie (generycznie), ale nie wydaje się to być konieczne.

#4 Updated by Adam Radziszewski over 9 years ago

  • Status changed from Gotowy to Zamknięty

Also available in: Atom PDF