Tryby przetwarzania

Przetwarzanie potokowe

Opis

Dane przetwarzane są strumieniowo. Na wejściu wyczytywane są dane w formacie CCL, IOB lub tekst, na wyjściu: CCL, IOB lub krotki.

Strumieniem wejściowym może być plik lub standardowe wejście. Strumieniem wyjściowym może być plik lub standardowe wyjście.

Przykładowe wywołania

Ze standardowego wejścia na standardowe wyjście w formacie CCL:

echo "Pani Ala Nowak mieszka w Warszawie" | maca-analyse -qs morfeusz-nkjp -o ccl | ./liner2i model-bootstrap1/bootstrap1.ini -i ccl -o ccl

Wynik: zobacz format_ccl

Ze standardowego wejścia w formacie CCL na standardowe wyjście w formacie IOB:

echo "Pani Ala Nowak mieszka w Warszawie" | maca-analyse -qs morfeusz-nkjp -o ccl | ./liner2i model-bootstrap1/bootstrap1.ini -i ccl -o iob

Wynik: zobacz format_iob

Ze standardowego wejścia w formacie CCL na standardowe wyjście w formacie krotek:

echo "Pani Ala Nowak mieszka w Warszawie" | maca-analyse -qs morfeusz-nkjp -o ccl | ./liner2i model-bootstrap1/bootstrap1.ini -i ccl -o tuples

Wynik:

(7,11,PERSON_LAST_NAM,"Nowak")
(4,6,PERSON_FIRST_NAM,"Ala")
(4,11,PERSON_NAM,"Ala Nowak")
(20,28,CITY_NAM,"Warszawie")

Odczyt z pliku

Odczyt danych wejściowych z pliku możliwy jest poprzez podanie parametru -f <nazwa_pliku>, np.:

./liner2.sh pipe -ini model-bootstrap1/bootstrap1.ini -i ccl -o tuples -f dane.ccl 

Zapis od pliku

Zapis do pliku danych wyjściowych możliwy jest poprzez podanie parametru -t <nazwa_pliku>, np.:

./liner2.sh pipe -ini model-bootstrap1/bootstrap1.ini -i ccl -o ccl -f dane.ccl -t wynik.ccl

Tryb interaktywny

Opis

Po uruchomieniu modułu w trybie interaktywnym użytkownik może podawać fragmenty tekstu do analizy. Fragmenty tekstu mogą być w formacie CCL lub w postaci czystego tekstu (wymagana jest wcześniejsza instalacja modułu maca). Wyniki przedstawiane są w formie krotek, gdzie anotacje indeksowane są po tokenach (w odróżnieniu do formatu krotek, gdzie anotacje indeksowane są po drukowalnych znakach).

Zakończenie pracy w trybie interaktywnym następuje po przesłaniu komendy EOF.

Przykłady

Tekst podawany z analizą morfologiczną:

Dane wejściowe powinny zawierać analizę morfologiczną. Każdy token powinien być opisany trzema atrybutami: orth, forma bazowa i tag z analizą morfologiczną. Atrybuty tokenu powinny być oddzielone spacją, między tokenami powinna być podwójna spacja, a między zdaniami potrójna spacja.

./liner2.sh interactive -ini model-bootstrap1/bootstrap1.ini

Stan gotowy do pracy:

# Loading, please wait...
# Enter a sentence and press Enter.
#   Tokens should be seperated with double spaces.
#   Token attributes should be seperated with a single space.
#   Example: Ala ala subst:sg:nom:f  ma mieć fin:sg:ter:imperf  kota kot subst:sg:acc:m1
# To disable the additional outputs rerun with `-silent` option.
# To finish enter 'EOF'.
> 

Zdanie do przetworzenia:

Pani pani subst:sg:nom:f  Ala Ala subst:sg:nom:f  Nowak Nowak subst:sg:nom:m1  mieszka mieszkać fin:sg:ter:imperf  w w prep:acc:nwok  Warszawie Warszawa subst:sg:loc:f

Wynik:

[2,3,PERSON_NAM][3,3,PERSON_LAST_NAM][2,2,PERSON_FIRST_NAM][6,6,CITY_NAM]

Przykład z wykorzystaniem globalnie zainstalowanej macy:

./liner2.sh interactive -ini model-bootstrap1/bootstrap1.ini -maca -

Stan gotowy do pracy:

# Loading, please wait...
# Enter a sentence and press Enter.
#   Tokens should be seperated with double spaces.
#   Token attributes should be seperated with a single space.
#   Example: Ala ala subst:sg:nom:f  ma mieć fin:sg:ter:imperf  kota kot subst:sg:acc:m1
# To disable the additional outputs rerun with `-silent` option.
# To finish enter 'EOF'.
> 

Zdanie do przetworzenia:

Pani Ala Nowak mieszka w Warszawie

Wynik:

[2,3,PERSON_NAM][3,3,PERSON_LAST_NAM][2,2,PERSON_FIRST_NAM][6,6,CITY_NAM]

dane.ccl - Przykładowe zdanie z analizą morfologiczną w formacie CCL (2.02 KB) Michał Marcińczuk, 21 Dec 2011 16:43