Zadanie #1366

Iteracja po znakach w operatorze text

Added by Adam Radziszewski over 12 years ago. Updated over 12 years ago.

Status:ZamkniętyStart date:30 Mar 2011
Priority:NormalnyDue date:
Assignee:Adam Radziszewski% Done:

100%

Category:-
Target version:-

Description

(oczywiście po powrocie z urlopu)
Przyda się Twoja pomoc w implementacji operatora text — masz doświadczenie z niskopoziomowymi operacjami na unikodzie w ICU. Chodzi o iterację po znakach kolejnych orthów i porównywanie ich złączenia z podanym przez użytkownika stringiem.

History

#1 Updated by Adam Radziszewski over 12 years ago

Proponuję pair programming Award + Ilor

#2 Updated by Adam Wardyński over 12 years ago

  • Status changed from Nowy to Przypisany
  • Assignee changed from Tomasz Śniatowski to Adam Wardyński

Ogólnie text jest przypisany do mnie, w razie czego popytam Tomka, ale juz chyba wszystko z nim przegadalem na ten temat.

#3 Updated by Adam Wardyński over 12 years ago

  • Status changed from Przypisany to Rozwiązany
  • Assignee changed from Adam Wardyński to Adam Radziszewski
  • % Done changed from 0 to 100

Git commit 261c5b03ea34460359b6b4742dc3db4f2262af85

Może trochę naiwne rozwiązanie z tym zlepianiem tokenów, można by iterować po pojedynczych znakach tokenów i porównywać z tekstem dopasowywanym literka unicode'owa po literce unicode'owej, ale to skomplikowałoby kod a na tym etapie wolę mieć bardziej czytelny kod.

Tomek generalnie doradził, że można po prostu polegać na operatorze porównania ==, bo jeśli ktoś w tekście namieszał i się tym przejmujemy, to to raczej powinno być zupełnie na wcześniejszym etapie rozwiązane, bliżej wczytywania tekstu. Tzn. jak rozumiem nigdzie nie mamy rozwiązania, że ó to może być jeden znaczek lub sklejone o + ' i powinno w teorii to być porównane na to samo?

#4 Updated by Adam Radziszewski over 12 years ago

  • Status changed from Rozwiązany to Zamknięty

Tak, zakładamy (naiwnie), że wszystkie znaki pisane są w ten sam sposób, najprawdopodobniej w postaci normalnej NFC. Sprawdzanie pełnej zgodności na którymkolwiek z poziomów świadomie olewamy (WCCL jest pisany z myślą o jęz. polskim, więc takie problemy będą bardzo rzadkie).

Also available in: Atom PDF