Zadanie #5475
Leksykon jest niepotrzebny
Status: | Zamknięty | Start date: | 04 Jun 2014 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | Adam Radziszewski | % Done: | 100% | |
Category: | - | |||
Target version: | c++ |
Description
Zapomniałem wyjaśnić, że generowanie leksykonu de facto tagerowi jest niepotrzebne i lepiej z tego zrezygnować, by nie mnożyć linii kodu.
Pythonowy tager WCRFT był przeróbką tagera WMBT (pamięciowego). WMBT używał tej funkcji, skopiowałem ją stamtąd. Teoretycznie WCRFT mógłby kiedyś też korzystać z leksykonów, ale do tej pory to się nie działo, więc szkoda zachodu, by pisać i testować te funkcje… więc lepiej je sobie darować — mniej kodu to mniej problemów.
Z modelu można też wywalić plik .lex, bo to jest wygenerowany leksykon.
History
#1 Updated by Adam Radziszewski over 9 years ago
Przy okazji istotna uwaga techniczna: do konwersji (i sprawdzenia) wielkości liter nie używaj standardowych funkcji z boosta — one nie rozumieją unikodu i zadziałają tylko dla niektórych znaków. Te funkcje są bezpieczne tylko dla znaków ASCII (np. nazwy configów, atrybutów z tagsetu itp.), ale jeśli chodzi o słowa, to należy korzystać z metod klasy UnicodeString (biblioteka ICU). Ten słownik i tak nie będzie potrzebny, więc nie ma co teraz tego naprawiać, ale uwaga na przyszłość (podobny kawałek kodu znalazłem i naprawiłem przy słowach nieznanych).
#2 Updated by Adam Radziszewski over 9 years ago
POPRAWKA: leksykon (lista słów, plik .lex) jest niepotrzebny, natomiast lista tagów słów nieznanych jest potrzebna.
#3 Updated by Radosław Warzocha over 9 years ago
- Status changed from Nowy to Gotowy
- Assignee changed from Radosław Warzocha to Adam Radziszewski
- % Done changed from 0 to 100
Przerobiłem tak, że wczytywania leksykonu nie ma, ale zostało wczytywanie nieznanych tagów.
Nie do końca jestem zadowolony z funkcji Tagger::filter_unknown_tags
. Można by było ją zapisać bardziej ogólnie (generycznie), ale nie wydaje się to być konieczne.
#4 Updated by Adam Radziszewski over 9 years ago
- Status changed from Gotowy to Zamknięty