Zadanie #8656

Story #8630: Tagowanie korpusu Sherloka Holmesa znaczeniami słów

Znaczenia pomocnicze, które powinny być automatycznie dodane do każdego typu anotacji

Added by Michał Marcińczuk over 5 years ago. Updated over 5 years ago.

Status:ZamkniętyStart date:06 Jun 2018
Priority:NormalnyDue date:
Assignee:Mikołaj Szewczyk% Done:

100%

Category:-Estimated time:4.00 hours
Target version:Bundle #007 — wsd annotation

Description

Dla każdego typu anotacji, poza zdefiniowanymi znaczeniami, należy automatycznie dodać następujące wartości:

  1. [Inne znaczenie] ← token rzeczownikowy, czasownikowy, przymiotnikowy lub przysłówkowy, którego znaczenie w danym kontekście nie zostało opisane w Słowosieci
  2. [Inna klasa] ← token, który według wytycznych do konstruowania Słowosieci w danym kontekście powinien zostać zaliczony do innej klasy gramatycznej nieuwzględnionej w budowaniu słownika (np. do klasy wykrzykników)
  3. [Nazwa własna] ← każdy element nazwy własnej, w przypadku wprowadzenia znacznika [Nazwa własna] nie stosujemy innych np. [Wyraz obcy]
  4. [Element frazeologizmu] ← token, który jest składnikiem jednostki wielowyrazowej, ale nie jest jej głową
  5. [Wyraz obcy] ← wyraz spoza słownika/systemu języka polskiego
  6. [Błąd tagera] ← błąd popełniony przez narzędzie do automatycznej segmentacji i tagowania wpływający na błędne przypisanie jednostki ze Słowosieci, np niepodzielenie słowa “miałem” na dwa tokeny, co wymusiło interpretację rzeczownikową (narzędnik od ‘miał’), a wykluczyło interpretację czasownikową (1 osoba liczby pojedynczej rodzaju męskiego czasu przeszłego od ‘mieć’)
  7. [Uszkodzenie tekstu] ← token będący wynikiem uszkodzenia tekstu, np. literówki

z https://docs.google.com/document/d/1MK8Pf45zarxpzRdMreAouOYrj5TtjwXSbyP9whpLf5w/edit?ts=5b17db28#

History

#1 Updated by Michał Marcińczuk over 5 years ago

  • Estimated time set to 4.00

#2 Updated by Michał Marcińczuk over 5 years ago

  • Description updated (diff)

#3 Updated by Michał Marcińczuk over 5 years ago

  • Assignee changed from Marcin Oleksy to Mikołaj Szewczyk
  • Target version set to Bundle #007 — wsd annotation

#4 Updated by Mikołaj Szewczyk over 5 years ago

  • Status changed from Przypisany to Rozwiązany
  • % Done changed from 0 to 100

#5 Updated by Michał Marcińczuk over 5 years ago

  • Status changed from Rozwiązany to Zamknięty

Also available in: Atom PDF