Zadanie #6067

Generowanie szablonów cech złożonych dla CRF

Added by Michał Marcińczuk about 9 years ago. Updated about 9 years ago.

Status:ZamkniętyStart date:16 Sep 2014
Priority:NormalnyDue date:
Assignee:Michał Marcińczuk% Done:

0%

Category:-
Target version:-

Description

Użycie algorytmu RIPPER do wygenerowanie złożonych cech dla CRF. Wstępne eksperymenty dały obiecujące wyniki.

Dla 50 dokumentów z KPWr zostały wygenerowane cechy:

has_upper_case:0/starts_with_digit:-1/has_lower_case:-1/class-1
has_upper_case:0/starts_with_digit:-1/starts_with_lower_case:1
starts_with_upper_case:0/starts_with_digit:-1/has_lower_case:-1/class:-1/class:0
has_upper_case:0/starts_with_digit:-1/starts_with_symbol:-1/agr1:-1
starts_with_upper_case:0/starts_with_digit:-1/dic_muc_per:2
starts_with_upper_case:0/class:0/starts_with_digit:-2/agr1:1
starts_with_upper_case:0/starts_with_digit:-2/class:1/dic_muc_per:0
starts_with_upper_case:0/class:0/dict_country_nam:0
class:0/starts_with_upper_case:0/has_lower_case:2

Dodanie ich do początkowego zbioru szablonów pozwoliło na osiągnięcie wyników:

***************************************** SUMMARY *****************************************
======================================================================================
# Exact match evaluation -- annotation span and types evaluation
======================================================================================
        Annotation           &   TP &   FP &   FN & Precision & Recall  & F$_1$   \\
\hline
        nam                  & 12179 & 2499 & 2889 &    82.97% &  80.83% &  81.89% \\
\hline
        *TOTAL*              & 12179 & 2499 & 2889 &    82.97% &  80.83% &  81.89% \\

======================================================================================
# Annotation span evaluation (annotation types are ignored)
======================================================================================
        Annotation           &   TP &   FP &   FN & Precision & Recall  & F$_1$   \\
\hline
        *TOTAL*              & 12179 & 2499 & 2889 &    82.97% &  80.83% &  81.89% \\

======================================================================================
# MUC match evaluation
======================================================================================
        Annotation           &  COR &  ACT &  POS & Precision & Recall  & F$_1$   \\
\hline
        nam                  & 26004 & 3352 & 4082 &    88.58% &  86.43% &  87.49% \\
\hline
        *TOTAL*              & 26004 & 3352 & 4082 &    88.58% &  86.43% &  87.49%

w porównaniu do dotychczasowych wyników:

***************************************** SUMMARY *****************************************
======================================================================================
# Exact match evaluation -- annotation span and types evaluation
======================================================================================
        Annotation           &   TP &   FP &   FN & Precision & Recall  & F$_1$   \\
\hline
        nam                  & 12053 & 2584 & 3015 &    82.35% &  79.99% &  81.15% \\
\hline
        *TOTAL*              & 12053 & 2584 & 3015 &    82.35% &  79.99% &  81.15% \\

======================================================================================
# Annotation span evaluation (annotation types are ignored)
======================================================================================
        Annotation           &   TP &   FP &   FN & Precision & Recall  & F$_1$   \\
\hline
        *TOTAL*              & 12053 & 2584 & 3015 &    82.35% &  79.99% &  81.15% \\

======================================================================================
# MUC match evaluation
======================================================================================
        Annotation           &  COR &  ACT &  POS & Precision & Recall  & F$_1$   \\
\hline
        nam                  & 25839 & 3435 & 4269 &    88.27% &  85.82% &  87.03% \\
\hline
        *TOTAL*              & 25839 & 3435 & 4269 &    88.27% &  85.82% &  87.03%

Zmiana jest istotna statystycznie:
Base Jrip DIFF (p_i) p_AVG (copy) (p_i – p_AVG)^2
1 80,11 81,31 1,2 0,716 0,234256
2 83,88 84,69 0,81 0,716 0,008836
3 82,40 82,66 0,26 0,716 0,207936
4 82,36 82,52 0,16 0,716 0,309136
5 79,56 80,06 0,5 0,716 0,046656
6 79,69 80,70 1,01 0,716 0,086436
7 79,43 80,20 0,77 0,716 0,002916
8 80,87 81,87 1 0,716 0,080656
9 82,24 82,59 0,35 0,716 0,133956
10 80,92 82,02 1,1 0,716 0,147456
AVG 81,15 81,86 0,716
SUM 1,25824 <- średnie odchylenie

NUM SAMPLES 10
SQRT 3,1622776602
t 6,0555352045
t thr for NUM 2,2621571628

SIGNIFICANT? PRAWDA

t formula 0,0001892049 <-- p-value Prawdopodobieństwo, że hipoteza zerowa jest prawdziwa (tj, że wyniki są sobie równe)

Eksperyment będzie trzeba powtórzyć na pełnym zbiorze tune po prowadzeniu wszystkich poprawek w KPWr.

History

#1 Updated by Michał Marcińczuk about 9 years ago

  • Status changed from Przypisany to Zamknięty

Also available in: Atom PDF