Błąd #540

Reprezentacja zdań i akapitów (XML-owy tag "chunk")

Added by Adam Radziszewski about 13 years ago. Updated almost 13 years ago.

Status:ZamkniętyStart date:21 Jul 2010
Priority:NormalnyDue date:
Assignee:-% Done:

0%

Category:-
Target version:-

Description

Będziemy potrzebować reprezentacji zdania. Zdanie składa się z tokenów i to póki co tyle. Gdy dojdziemy do analizy składniowej, to można dodać do zdania "kanały anotacji składniowej" -- każdy kanał ma swoją nazwę i dane, czyli tyle tagów ile tokenów (są trzy możliwe tagi: I, O, B).

Drugim problemem jest reprezentacja podziału na akapity. W zasadzie my chcemy mieć możliwość odczytania tego tylko po to, by ją z powrotem zapisać w niezepsutej postaci -- a nas interesują tak naprawdę zdania.

Korpusy zapisywane w formacie XCES podzielone są na "kawały" ("chunks").
Kawały takie mogą odpowiadać:
  • zdaniom:
    <chunk type="s">
  • akapitom, np.:
    nazwany akapit (brakuje xlinka, ale takie korpusy mamy)
    <chunk id="ch151" xlink:href="unknown" type="tok">

    czy też nienazwany, ale z podanym xlinkiem
    <chunk type="p" xlink:href="#dv1dv4dv1hd1">
  • innym kawałkom tekstu, np. rozdziałom czy też divom ze stron www (choć nie wiem, jak się je oznacza i czy oznacza się je jakoś inaczej niż akapity z xlinkiem, chyba tak samo tylko można dać inny identyfikator).

W przypadku chunk id ten identyfikator jest bardzo ważny, bo używałem go do rozróżniania akapitów (pod taką nazwą trzymałem to na dysku, a teraz też w bazie danych).

Teoretycznie znaczniki chunk mogą być zagnieżdżane w sobie dowolnie głęboko. Najczęściej tekst jest podzielony na akapity, a w akapitach są zdania i to jest tyle. Mamy też korpusy podzielone tylko na zdania, mamy też podzielone tylko na akapity, ale bez podziału na zdania. Na pewno możemy założyć, że w ramach podziału na zdania nie ma już dalszego podziału na kawały i że istnieje tylko jeden poziom podziału na zdania. W Disasterze zakładałem, że jest tylko jeden podział na akapity i w nim tylko jeden podział na zdania -- i jeśli czytnik nie znajdzie podziału na akapity, to tworzy jeden wielki akapit a w nim zdania. Może warto byłoby to uogólnić, ale nie wiem jak to zrobić ładnie.

Zadanie: przemyśleć to i przyjąć jakąś reprezentację tego wszystkiego.

History

#1 Updated by Tomasz Śniatowski almost 13 years ago

  • Status changed from Nowy to Zamknięty

Reprezentacja jest - chunki i zdania, a w nich tokeny. Chunki dodatkowo maja atrybuty tekstowe (typu id=aa). Czytniki etc moga czytac chunki, zdania tokeny wiec klient biblioteki wybiera co mu wygodnie.

Also available in: Atom PDF