Disaster (DISAmbiguator and STatistical chunkER) to pakiet oprogramowania w języku Python realizujący płaską analizę składniową (chunking) i ujednoznacznianie morfo-syntaktyczne (reimplementacja tagera TaKIPI). Pakiet jest rozwijany, w obecnej wersji zawiera:
- moduł odczytu i zapisu korpusów w formacie XCES (dialekt ipipanowski), również rozszerzonych o anotację IOB (własna modyfikacja tego formatu, dodatkowy tag <iob>),
- graficzny edytor płaskich anotacji składniowych,
- prymitywny edytor oznakowania morfo-syntaktycznego (pozwala na zmianę tagów oznaczonych jako rozstrzygające, nie pozwala na dodawanie nowych),
- reimplementację tagera TaKIPI z możliwością zmiany tagsetu (tagset jest parametryzowany),
- reimplementację formalizmu JOSKIPI rozszerzonego o odwołania do płaskich fraz składniowych (chunks) i leksykonów,
- implementację prostego analizatora płaskich fraz rzeczownikowych (NP chunker),
- infrastrukturę analizatorów/tagerów, które pozwalają na odpalanie reguł JOSKIPI i innych etapów przetwarzania (np. tagera).
Pakiet został udostępniony na licencji GPL 3.0 — dostępny jest na tej stronie.
Dokładniejszy opis, możliwość przeglądania kodu on-line oraz zgłaszanie błędów można znaleźć na stronie trakowej.