Zadanie #6067
Generowanie szablonów cech złożonych dla CRF
Status: | Zamknięty | Start date: | 16 Sep 2014 | |
---|---|---|---|---|
Priority: | Normalny | Due date: | ||
Assignee: | Michał Marcińczuk | % Done: | 0% | |
Category: | - | |||
Target version: | - |
Description
Użycie algorytmu RIPPER do wygenerowanie złożonych cech dla CRF. Wstępne eksperymenty dały obiecujące wyniki.
Dla 50 dokumentów z KPWr zostały wygenerowane cechy:
has_upper_case:0/starts_with_digit:-1/has_lower_case:-1/class-1 has_upper_case:0/starts_with_digit:-1/starts_with_lower_case:1 starts_with_upper_case:0/starts_with_digit:-1/has_lower_case:-1/class:-1/class:0 has_upper_case:0/starts_with_digit:-1/starts_with_symbol:-1/agr1:-1 starts_with_upper_case:0/starts_with_digit:-1/dic_muc_per:2 starts_with_upper_case:0/class:0/starts_with_digit:-2/agr1:1 starts_with_upper_case:0/starts_with_digit:-2/class:1/dic_muc_per:0 starts_with_upper_case:0/class:0/dict_country_nam:0 class:0/starts_with_upper_case:0/has_lower_case:2
Dodanie ich do początkowego zbioru szablonów pozwoliło na osiągnięcie wyników:
***************************************** SUMMARY ***************************************** ====================================================================================== # Exact match evaluation -- annotation span and types evaluation ====================================================================================== Annotation & TP & FP & FN & Precision & Recall & F$_1$ \\ \hline nam & 12179 & 2499 & 2889 & 82.97% & 80.83% & 81.89% \\ \hline *TOTAL* & 12179 & 2499 & 2889 & 82.97% & 80.83% & 81.89% \\ ====================================================================================== # Annotation span evaluation (annotation types are ignored) ====================================================================================== Annotation & TP & FP & FN & Precision & Recall & F$_1$ \\ \hline *TOTAL* & 12179 & 2499 & 2889 & 82.97% & 80.83% & 81.89% \\ ====================================================================================== # MUC match evaluation ====================================================================================== Annotation & COR & ACT & POS & Precision & Recall & F$_1$ \\ \hline nam & 26004 & 3352 & 4082 & 88.58% & 86.43% & 87.49% \\ \hline *TOTAL* & 26004 & 3352 & 4082 & 88.58% & 86.43% & 87.49%
w porównaniu do dotychczasowych wyników:
***************************************** SUMMARY ***************************************** ====================================================================================== # Exact match evaluation -- annotation span and types evaluation ====================================================================================== Annotation & TP & FP & FN & Precision & Recall & F$_1$ \\ \hline nam & 12053 & 2584 & 3015 & 82.35% & 79.99% & 81.15% \\ \hline *TOTAL* & 12053 & 2584 & 3015 & 82.35% & 79.99% & 81.15% \\ ====================================================================================== # Annotation span evaluation (annotation types are ignored) ====================================================================================== Annotation & TP & FP & FN & Precision & Recall & F$_1$ \\ \hline *TOTAL* & 12053 & 2584 & 3015 & 82.35% & 79.99% & 81.15% \\ ====================================================================================== # MUC match evaluation ====================================================================================== Annotation & COR & ACT & POS & Precision & Recall & F$_1$ \\ \hline nam & 25839 & 3435 & 4269 & 88.27% & 85.82% & 87.03% \\ \hline *TOTAL* & 25839 & 3435 & 4269 & 88.27% & 85.82% & 87.03%
Zmiana jest istotna statystycznie:
Base Jrip DIFF (p_i) p_AVG (copy) (p_i – p_AVG)^2
1 80,11 81,31 1,2 0,716 0,234256
2 83,88 84,69 0,81 0,716 0,008836
3 82,40 82,66 0,26 0,716 0,207936
4 82,36 82,52 0,16 0,716 0,309136
5 79,56 80,06 0,5 0,716 0,046656
6 79,69 80,70 1,01 0,716 0,086436
7 79,43 80,20 0,77 0,716 0,002916
8 80,87 81,87 1 0,716 0,080656
9 82,24 82,59 0,35 0,716 0,133956
10 80,92 82,02 1,1 0,716 0,147456
AVG 81,15 81,86 0,716
SUM 1,25824 <- średnie odchylenie
NUM SAMPLES 10
SQRT 3,1622776602
t 6,0555352045
t thr for NUM 2,2621571628
SIGNIFICANT? PRAWDA
t formula 0,0001892049 <-- p-value Prawdopodobieństwo, że hipoteza zerowa jest prawdziwa (tj, że wyniki są sobie równe)
Eksperyment będzie trzeba powtórzyć na pełnym zbiorze tune po prowadzeniu wszystkich poprawek w KPWr.
History
#1 Updated by Michał Marcińczuk over 8 years ago
- Status changed from Przypisany to Zamknięty