Zadanie #1366
Iteracja po znakach w operatorze text
Status: | Zamknięty | Start date: | 30 Mar 2011 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | Adam Radziszewski | % Done: | 100% | |
Category: | - | |||
Target version: | - |
Description
(oczywiście po powrocie z urlopu)
Przyda się Twoja pomoc w implementacji operatora text — masz doświadczenie z niskopoziomowymi operacjami na unikodzie w ICU. Chodzi o iterację po znakach kolejnych orthów i porównywanie ich złączenia z podanym przez użytkownika stringiem.
History
#1 Updated by Adam Radziszewski over 12 years ago
Proponuję pair programming Award + Ilor
#2 Updated by Adam Wardyński over 12 years ago
- Status changed from Nowy to Przypisany
- Assignee changed from Tomasz Śniatowski to Adam Wardyński
Ogólnie text jest przypisany do mnie, w razie czego popytam Tomka, ale juz chyba wszystko z nim przegadalem na ten temat.
#3 Updated by Adam Wardyński over 12 years ago
- Status changed from Przypisany to Rozwiązany
- Assignee changed from Adam Wardyński to Adam Radziszewski
- % Done changed from 0 to 100
Git commit 261c5b03ea34460359b6b4742dc3db4f2262af85
Może trochę naiwne rozwiązanie z tym zlepianiem tokenów, można by iterować po pojedynczych znakach tokenów i porównywać z tekstem dopasowywanym literka unicode'owa po literce unicode'owej, ale to skomplikowałoby kod a na tym etapie wolę mieć bardziej czytelny kod.
Tomek generalnie doradził, że można po prostu polegać na operatorze porównania ==, bo jeśli ktoś w tekście namieszał i się tym przejmujemy, to to raczej powinno być zupełnie na wcześniejszym etapie rozwiązane, bliżej wczytywania tekstu. Tzn. jak rozumiem nigdzie nie mamy rozwiązania, że ó to może być jeden znaczek lub sklejone o + ' i powinno w teorii to być porównane na to samo?
#4 Updated by Adam Radziszewski over 12 years ago
- Status changed from Rozwiązany to Zamknięty
Tak, zakładamy (naiwnie), że wszystkie znaki pisane są w ten sam sposób, najprawdopodobniej w postaci normalnej NFC. Sprawdzanie pełnej zgodności na którymkolwiek z poziomów świadomie olewamy (WCCL jest pisany z myślą o jęz. polskim, więc takie problemy będą bardzo rzadkie).