Tryby przetwarzania¶
Przetwarzanie potokowe¶
Opis¶
Dane przetwarzane są strumieniowo. Na wejściu wyczytywane są dane w formacie CCL, IOB lub tekst, na wyjściu: CCL, IOB lub krotki.
Strumieniem wejściowym może być plik lub standardowe wejście. Strumieniem wyjściowym może być plik lub standardowe wyjście.
Przykładowe wywołania¶
Ze standardowego wejścia na standardowe wyjście w formacie CCL:
echo "Pani Ala Nowak mieszka w Warszawie" | maca-analyse -qs morfeusz-nkjp -o ccl | ./liner2i model-bootstrap1/bootstrap1.ini -i ccl -o ccl
Wynik: zobacz format_ccl
Ze standardowego wejścia w formacie CCL na standardowe wyjście w formacie IOB:
echo "Pani Ala Nowak mieszka w Warszawie" | maca-analyse -qs morfeusz-nkjp -o ccl | ./liner2i model-bootstrap1/bootstrap1.ini -i ccl -o iob
Wynik: zobacz format_iob
Ze standardowego wejścia w formacie CCL na standardowe wyjście w formacie krotek:
echo "Pani Ala Nowak mieszka w Warszawie" | maca-analyse -qs morfeusz-nkjp -o ccl | ./liner2i model-bootstrap1/bootstrap1.ini -i ccl -o tuples
Wynik:
(7,11,PERSON_LAST_NAM,"Nowak") (4,6,PERSON_FIRST_NAM,"Ala") (4,11,PERSON_NAM,"Ala Nowak") (20,28,CITY_NAM,"Warszawie")
Odczyt z pliku
Odczyt danych wejściowych z pliku możliwy jest poprzez podanie parametru -f <nazwa_pliku>, np.:
./liner2.sh pipe -ini model-bootstrap1/bootstrap1.ini -i ccl -o tuples -f dane.ccl
Zapis od pliku
Zapis do pliku danych wyjściowych możliwy jest poprzez podanie parametru -t <nazwa_pliku>, np.:
./liner2.sh pipe -ini model-bootstrap1/bootstrap1.ini -i ccl -o ccl -f dane.ccl -t wynik.ccl
Tryb interaktywny¶
Opis¶
Po uruchomieniu modułu w trybie interaktywnym użytkownik może podawać fragmenty tekstu do analizy. Fragmenty tekstu mogą być w formacie CCL lub w postaci czystego tekstu (wymagana jest wcześniejsza instalacja modułu maca). Wyniki przedstawiane są w formie krotek, gdzie anotacje indeksowane są po tokenach (w odróżnieniu do formatu krotek, gdzie anotacje indeksowane są po drukowalnych znakach).
Zakończenie pracy w trybie interaktywnym następuje po przesłaniu komendy EOF.
Przykłady¶
Tekst podawany z analizą morfologiczną:
Dane wejściowe powinny zawierać analizę morfologiczną. Każdy token powinien być opisany trzema atrybutami: orth, forma bazowa i tag z analizą morfologiczną. Atrybuty tokenu powinny być oddzielone spacją, między tokenami powinna być podwójna spacja, a między zdaniami potrójna spacja.
./liner2.sh interactive -ini model-bootstrap1/bootstrap1.ini
Stan gotowy do pracy:
# Loading, please wait... # Enter a sentence and press Enter. # Tokens should be seperated with double spaces. # Token attributes should be seperated with a single space. # Example: Ala ala subst:sg:nom:f ma mieć fin:sg:ter:imperf kota kot subst:sg:acc:m1 # To disable the additional outputs rerun with `-silent` option. # To finish enter 'EOF'. >
Zdanie do przetworzenia:
Pani pani subst:sg:nom:f Ala Ala subst:sg:nom:f Nowak Nowak subst:sg:nom:m1 mieszka mieszkać fin:sg:ter:imperf w w prep:acc:nwok Warszawie Warszawa subst:sg:loc:f
Wynik:
[2,3,PERSON_NAM][3,3,PERSON_LAST_NAM][2,2,PERSON_FIRST_NAM][6,6,CITY_NAM]
Przykład z wykorzystaniem globalnie zainstalowanej macy:
./liner2.sh interactive -ini model-bootstrap1/bootstrap1.ini -maca -
Stan gotowy do pracy:
# Loading, please wait... # Enter a sentence and press Enter. # Tokens should be seperated with double spaces. # Token attributes should be seperated with a single space. # Example: Ala ala subst:sg:nom:f ma mieć fin:sg:ter:imperf kota kot subst:sg:acc:m1 # To disable the additional outputs rerun with `-silent` option. # To finish enter 'EOF'. >
Zdanie do przetworzenia:
Pani Ala Nowak mieszka w Warszawie
Wynik:
[2,3,PERSON_NAM][3,3,PERSON_LAST_NAM][2,2,PERSON_FIRST_NAM][6,6,CITY_NAM]