Błąd #540
Reprezentacja zdań i akapitów (XML-owy tag "chunk")
Status: | Zamknięty | Start date: | 21 Jul 2010 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | - | % Done: | 0% | |
Category: | - | |||
Target version: | - |
Description
Będziemy potrzebować reprezentacji zdania. Zdanie składa się z tokenów i to póki co tyle. Gdy dojdziemy do analizy składniowej, to można dodać do zdania "kanały anotacji składniowej" -- każdy kanał ma swoją nazwę i dane, czyli tyle tagów ile tokenów (są trzy możliwe tagi: I, O, B).
Drugim problemem jest reprezentacja podziału na akapity. W zasadzie my chcemy mieć możliwość odczytania tego tylko po to, by ją z powrotem zapisać w niezepsutej postaci -- a nas interesują tak naprawdę zdania.
Korpusy zapisywane w formacie XCES podzielone są na "kawały" ("chunks").Kawały takie mogą odpowiadać:
- zdaniom:
<chunk type="s">
- akapitom, np.:
nazwany akapit (brakuje xlinka, ale takie korpusy mamy)<chunk id="ch151" xlink:href="unknown" type="tok">
czy też nienazwany, ale z podanym xlinkiem<chunk type="p" xlink:href="#dv1dv4dv1hd1">
- innym kawałkom tekstu, np. rozdziałom czy też divom ze stron www (choć nie wiem, jak się je oznacza i czy oznacza się je jakoś inaczej niż akapity z xlinkiem, chyba tak samo tylko można dać inny identyfikator).
W przypadku chunk id
ten identyfikator jest bardzo ważny, bo używałem go do rozróżniania akapitów (pod taką nazwą trzymałem to na dysku, a teraz też w bazie danych).
Teoretycznie znaczniki chunk
mogą być zagnieżdżane w sobie dowolnie głęboko. Najczęściej tekst jest podzielony na akapity, a w akapitach są zdania i to jest tyle. Mamy też korpusy podzielone tylko na zdania, mamy też podzielone tylko na akapity, ale bez podziału na zdania. Na pewno możemy założyć, że w ramach podziału na zdania nie ma już dalszego podziału na kawały i że istnieje tylko jeden poziom podziału na zdania. W Disasterze zakładałem, że jest tylko jeden podział na akapity i w nim tylko jeden podział na zdania -- i jeśli czytnik nie znajdzie podziału na akapity, to tworzy jeden wielki akapit a w nim zdania. Może warto byłoby to uogólnić, ale nie wiem jak to zrobić ładnie.
Zadanie: przemyśleć to i przyjąć jakąś reprezentację tego wszystkiego.
History
#1 Updated by Tomasz Śniatowski almost 13 years ago
- Status changed from Nowy to Zamknięty
Reprezentacja jest - chunki i zdania, a w nich tokeny. Chunki dodatkowo maja atrybuty tekstowe (typu id=aa). Czytniki etc moga czytac chunki, zdania tokeny wiec klient biblioteki wybiera co mu wygodnie.