muhammadravi251001 commited on
Commit
258f3d7
1 Parent(s): 7ece278

Upload results/evaluation with huggingface_hub

Browse files
results/evaluation/general_evaluation_results.txt CHANGED
@@ -1,54 +1,54 @@
1
  --- Bagian tentang question type ---
2
  -- Bagian tentang question type yang terprediksi BENAR --
3
  Banyak pertanyaan APA: 144, sebesar: 16.8 %
4
- Banyak pertanyaan DIMANA: 14, sebesar: 1.63 %
5
- Banyak pertanyaan KAPAN: 97, sebesar: 11.32 %
6
  Banyak pertanyaan SIAPA: 31, sebesar: 3.62 %
7
- Banyak pertanyaan BAGAIMANA: 2, sebesar: 0.23 %
8
  Banyak pertanyaan KENAPA: 0, sebesar: 0.0 %
9
  Banyak pertanyaan BERAPA: 85, sebesar: 9.92 %
10
- Banyak pertanyaan LAINNYA: 92, sebesar: 10.74 %
11
 
12
  -- Bagian tentang question type yang terprediksi SALAH --
13
  Banyak pertanyaan APA: 157, sebesar: 18.32 %
14
- Banyak pertanyaan DIMANA: 20, sebesar: 2.33 %
15
- Banyak pertanyaan KAPAN: 39, sebesar: 4.55 %
16
  Banyak pertanyaan SIAPA: 26, sebesar: 3.03 %
17
- Banyak pertanyaan BAGAIMANA: 3, sebesar: 0.35 %
18
  Banyak pertanyaan KENAPA: 6, sebesar: 0.7 %
19
  Banyak pertanyaan BERAPA: 46, sebesar: 5.37 %
20
- Banyak pertanyaan LAINNYA: 95, sebesar: 11.09 %
21
 
22
  -- Presentase kebenaran --
23
  Banyak pertanyaan APA yang terpediksi benar sebesar: 47.84 %
24
- Banyak pertanyaan DIMANA yang terpediksi benar sebesar: 41.18 %
25
- Banyak pertanyaan KAPAN yang terpediksi benar sebesar: 71.32 %
26
  Banyak pertanyaan SIAPA yang terpediksi benar sebesar: 54.39 %
27
- Banyak pertanyaan BAGAIMANA yang terpediksi benar sebesar: 40.0 %
28
  Banyak pertanyaan KENAPA yang terpediksi benar sebesar: 0.0 %
29
  Banyak pertanyaan BERAPA yang terpediksi benar sebesar: 64.89 %
30
- Banyak pertanyaan LAINNYA yang terpediksi benar sebesar: 49.2 %
31
 
32
  --- Bagian tentang panjang context ---
33
  -- Bagian tentang panjang context yang terprediksi BENAR --
34
- Panjang konteks < 100: 354, sebesar: 41.31 %
35
- Panjang konteks 101 <= x <= 150: 111, sebesar: 12.95 %
36
  Panjang konteks 151 <= x <= 200: 0, sebesar: 0.0 %
37
  Panjang konteks 201 <= x <= 250: 0, sebesar: 0.0 %
38
  Panjang konteks 251 <= x <= 300: 0, sebesar: 0.0 %
39
  Panjang konteks > 300: 0, sebesar: 0.0 %
40
 
41
  -- Bagian tentang panjang context yang terprediksi SALAH --
42
- Panjang konteks < 100: 234, sebesar: 27.3 %
43
- Panjang konteks 101 <= x <= 150: 158, sebesar: 18.44 %
44
  Panjang konteks 151 <= x <= 200: 0, sebesar: 0.0 %
45
  Panjang konteks 201 <= x <= 250: 0, sebesar: 0.0 %
46
  Panjang konteks 251 <= x <= 300: 0, sebesar: 0.0 %
47
  Panjang konteks > 300: 0, sebesar: 0.0 %
48
 
49
  -- Presentase kebenaran --
50
- Panjang konteks < 100 yang terprediksi benar sebesar: 60.2 %
51
- Panjang konteks 101 <= x <= 150 yang terprediksi benar sebesar: 41.26 %
52
  Panjang konteks 151 <= x <= 200 yang terprediksi benar sebesar: 0 %
53
  Panjang konteks 201 <= x <= 250 yang terprediksi benar sebesar: 0 %
54
  Panjang konteks 251 <= x <= 300 yang terprediksi benar sebesar: 0 %
@@ -56,134 +56,134 @@ Panjang konteks > 300 yang terprediksi benar sebesar: 0 %
56
 
57
  --- Bagian tentang panjang question ---
58
  -- Bagian tentang panjang question yang terprediksi BENAR --
59
- Panjang question 1 <= x <= 5: 324, sebesar: 37.81 %
60
- Panjang question 6 <= x <= 10: 141, sebesar: 16.45 %
61
  Panjang question 11 <= x <= 15: 0, sebesar: 0.0 %
62
  Panjang question 16 <= x <= 20: 0, sebesar: 0.0 %
63
  Panjang question > 20: 0, sebesar: 0.0 %
64
 
65
  -- Bagian tentang panjang question yang terprediksi SALAH --
66
- Panjang question 1 <= x <= 5: 228, sebesar: 26.6 %
67
- Panjang question 6 <= x <= 10: 164, sebesar: 19.14 %
68
  Panjang question 11 <= x <= 15: 0, sebesar: 0.0 %
69
  Panjang question 16 <= x <= 20: 0, sebesar: 0.0 %
70
  Panjang question > 20: 0, sebesar: 0.0 %
71
 
72
  -- Presentase kebenaran --
73
- Panjang question 1 <= x <= 5 yang terprediksi benar sebesar: 58.7 %
74
- Panjang question 6 <= x <= 10 yang terprediksi benar sebesar: 46.23 %
75
  Panjang question 11 <= x <= 15 yang terprediksi benar sebesar: 0 %
76
  Panjang question 16 <= x <= 20 yang terprediksi benar sebesar: 0 %
77
  Panjang question > 20 yang terprediksi benar sebesar: 0 %
78
 
79
  --- Bagian tentang panjang gold answer ---
80
  -- Bagian tentang panjang gold answer yang terprediksi BENAR --
81
- Panjang question 1 <= x <= 5: 364, sebesar: 42.47 %
82
- Panjang question 6 <= x <= 10: 101, sebesar: 11.79 %
83
  Panjang question 11 <= x <= 15: 0, sebesar: 0.0 %
84
  Panjang question 16 <= x <= 20: 0, sebesar: 0.0 %
85
  Panjang question > 20: 0, sebesar: 0.0 %
86
 
87
  -- Bagian tentang panjang gold answer yang terprediksi SALAH --
88
- Panjang question 1 <= x <= 5: 250, sebesar: 29.17 %
89
- Panjang question 6 <= x <= 10: 142, sebesar: 16.57 %
90
  Panjang question 11 <= x <= 15: 0, sebesar: 0.0 %
91
  Panjang question 16 <= x <= 20: 0, sebesar: 0.0 %
92
  Panjang question > 20: 0, sebesar: 0.0 %
93
 
94
  -- Presentase kebenaran --
95
- Panjang question 1 <= x <= 5 yang terprediksi benar sebesar: 59.28 %
96
- Panjang question 6 <= x <= 10 yang terprediksi benar sebesar: 41.56 %
97
  Panjang question 11 <= x <= 15 yang terprediksi benar sebesar: 0 %
98
  Panjang question 16 <= x <= 20 yang terprediksi benar sebesar: 0 %
99
  Panjang question > 20 yang terprediksi benar sebesar: 0 %
100
 
101
  --- Bagian tentang answer type ---
102
  -- Bagian tentang answer type yang terprediksi BENAR --
103
- Banyak answer type Person sebanyak: 61, sekitar 6.400839454354669 %
104
- Banyak answer type NORP sebanyak: 7, sekitar 0.7345225603357817 %
105
- Banyak answer type Facility sebanyak: 5, sekitar 0.5246589716684155 %
106
  Banyak answer type Organization sebanyak: 3, sekitar 0.3147953830010493 %
107
- Banyak answer type Geo-Political Entity sebanyak: 28, sekitar 2.9380902413431267 %
108
- Banyak answer type Location sebanyak: 15, sekitar 1.5739769150052465 %
109
- Banyak answer type Product sebanyak: 35, sekitar 3.6726128016789086 %
110
- Banyak answer type Event sebanyak: 4, sekitar 0.4197271773347324 %
111
- Banyak answer type Work of Art sebanyak: 10, sekitar 1.049317943336831 %
112
  Banyak answer type Law sebanyak: 0, sekitar 0.0 %
113
  Banyak answer type Language sebanyak: 2, sekitar 0.2098635886673662 %
114
- Banyak answer type Date sebanyak: 93, sekitar 9.758656873032528 %
115
  Banyak answer type Time sebanyak: 0, sekitar 0.0 %
116
  Banyak answer type Percent sebanyak: 0, sekitar 0.0 %
117
- Banyak answer type Money sebanyak: 6, sekitar 0.6295907660020986 %
118
  Banyak answer type Quantity sebanyak: 66, sekitar 6.925498426023085 %
119
- Banyak answer type Ordinal sebanyak: 20, sekitar 2.098635886673662 %
120
- Banyak answer type Cardinal sebanyak: 26, sekitar 2.728226652675761 %
121
  Banyak answer type REG sebanyak: 9, sekitar 0.944386149003148 %
122
- Banyak answer type Null sebanyak: 118, sekitar 12.381951731374606 %
123
 
124
  -- Bagian tentang answer type yang terprediksi SALAH --
125
- Banyak answer type Person sebanyak: 42, sekitar 4.4071353620146905 %
126
- Banyak answer type NORP sebanyak: 9, sekitar 0.944386149003148 %
127
- Banyak answer type Facility sebanyak: 0, sekitar 0.0 %
128
  Banyak answer type Organization sebanyak: 12, sekitar 1.2591815320041972 %
129
- Banyak answer type Geo-Political Entity sebanyak: 58, sekitar 6.08604407135362 %
130
- Banyak answer type Location sebanyak: 20, sekitar 2.098635886673662 %
131
- Banyak answer type Product sebanyak: 43, sekitar 4.512067156348373 %
132
- Banyak answer type Event sebanyak: 1, sekitar 0.1049317943336831 %
133
- Banyak answer type Work of Art sebanyak: 4, sekitar 0.4197271773347324 %
134
  Banyak answer type Law sebanyak: 0, sekitar 0.0 %
135
  Banyak answer type Language sebanyak: 1, sekitar 0.1049317943336831 %
136
- Banyak answer type Date sebanyak: 47, sekitar 4.931794333683106 %
137
  Banyak answer type Time sebanyak: 0, sekitar 0.0 %
138
  Banyak answer type Percent sebanyak: 1, sekitar 0.1049317943336831 %
139
- Banyak answer type Money sebanyak: 3, sekitar 0.3147953830010493 %
140
  Banyak answer type Quantity sebanyak: 19, sekitar 1.993704092339979 %
141
- Banyak answer type Ordinal sebanyak: 15, sekitar 1.5739769150052465 %
142
- Banyak answer type Cardinal sebanyak: 27, sekitar 2.8331584470094437 %
143
  Banyak answer type REG sebanyak: 14, sekitar 1.4690451206715633 %
144
- Banyak answer type Null sebanyak: 129, sekitar 13.53620146904512 %
145
 
146
  -- Presentase kebenaran --
147
- Banyak answer type Person yang terprediksi benar sebesar: 59.22 %
148
- Banyak answer type NORP yang terprediksi benar sebesar: 43.75 %
149
- Banyak answer type Facility yang terprediksi benar sebesar: 0 %
150
  Banyak answer type Organization yang terprediksi benar sebesar: 20.0 %
151
- Banyak answer type Geo-Political Entity yang terprediksi benar sebesar: 32.56 %
152
- Banyak answer type Location yang terprediksi benar sebesar: 42.86 %
153
- Banyak answer type Product yang terprediksi benar sebesar: 44.87 %
154
- Banyak answer type Event yang terprediksi benar sebesar: 80.0 %
155
- Banyak answer type Work of Art yang terprediksi benar sebesar: 71.43 %
156
  Banyak answer type Law yang terprediksi benar sebesar: 0 %
157
  Banyak answer type Language yang terprediksi benar sebesar: 66.67 %
158
- Banyak answer type Date yang terprediksi benar sebesar: 66.43 %
159
  Banyak answer type Time yang terprediksi benar sebesar: 0 %
160
  Banyak answer type Percent yang terprediksi benar sebesar: 0.0 %
161
- Banyak answer type Money yang terprediksi benar sebesar: 66.67 %
162
  Banyak answer type Quantity yang terprediksi benar sebesar: 77.65 %
163
- Banyak answer type Ordinal yang terprediksi benar sebesar: 57.14 %
164
- Banyak answer type Cardinal yang terprediksi benar sebesar: 49.06 %
165
  Banyak answer type REG yang terprediksi benar sebesar: 39.13 %
166
- Banyak answer type Null yang terprediksi benar sebesar: 47.77 %
167
 
168
  --- Bagian tentang reasoning type ---
169
  -- Bagian tentang reasoning type yang terprediksi BENAR --
170
  Banyak reasoning type berjenis WM sebanyak: 5, sebesar: 5.0 %
171
- Banyak reasoning type berjenis PP sebanyak: 20, sebesar: 20.0 %
172
- Banyak reasoning type berjenis SSR sebanyak: 10, sebesar: 10.0 %
173
- Banyak reasoning type berjenis MSR sebanyak: 13, sebesar: 13.0 %
174
- Banyak reasoning type berjenis AoI sebanyak: 11, sebesar: 11.0 %
175
 
176
  -- Bagian tentang reasoning type yang terprediksi SALAH --
177
  Banyak reasoning type berjenis WM sebanyak: 4, sebesar: 4.0 %
178
- Banyak reasoning type berjenis PP sebanyak: 12, sebesar: 12.0 %
179
- Banyak reasoning type berjenis SSR sebanyak: 7, sebesar: 7.0 %
180
- Banyak reasoning type berjenis MSR sebanyak: 9, sebesar: 9.0 %
181
- Banyak reasoning type berjenis AoI sebanyak: 9, sebesar: 9.0 %
182
 
183
  -- Presentase kebenaran --
184
  Banyak reasoning type berjenis WM yang terprediksi benar sebesar: 55.56 %
185
- Banyak reasoning type berjenis PP yang terprediksi benar sebesar: 62.5 %
186
- Banyak reasoning type berjenis SSR yang terprediksi benar sebesar: 58.82 %
187
- Banyak reasoning type berjenis MSR yang terprediksi benar sebesar: 59.09 %
188
- Banyak reasoning type berjenis AoI yang terprediksi benar sebesar: 55.0 %
189
 
 
1
  --- Bagian tentang question type ---
2
  -- Bagian tentang question type yang terprediksi BENAR --
3
  Banyak pertanyaan APA: 144, sebesar: 16.8 %
4
+ Banyak pertanyaan DIMANA: 10, sebesar: 1.17 %
5
+ Banyak pertanyaan KAPAN: 89, sebesar: 10.39 %
6
  Banyak pertanyaan SIAPA: 31, sebesar: 3.62 %
7
+ Banyak pertanyaan BAGAIMANA: 1, sebesar: 0.12 %
8
  Banyak pertanyaan KENAPA: 0, sebesar: 0.0 %
9
  Banyak pertanyaan BERAPA: 85, sebesar: 9.92 %
10
+ Banyak pertanyaan LAINNYA: 82, sebesar: 9.57 %
11
 
12
  -- Bagian tentang question type yang terprediksi SALAH --
13
  Banyak pertanyaan APA: 157, sebesar: 18.32 %
14
+ Banyak pertanyaan DIMANA: 24, sebesar: 2.8 %
15
+ Banyak pertanyaan KAPAN: 47, sebesar: 5.48 %
16
  Banyak pertanyaan SIAPA: 26, sebesar: 3.03 %
17
+ Banyak pertanyaan BAGAIMANA: 4, sebesar: 0.47 %
18
  Banyak pertanyaan KENAPA: 6, sebesar: 0.7 %
19
  Banyak pertanyaan BERAPA: 46, sebesar: 5.37 %
20
+ Banyak pertanyaan LAINNYA: 105, sebesar: 12.25 %
21
 
22
  -- Presentase kebenaran --
23
  Banyak pertanyaan APA yang terpediksi benar sebesar: 47.84 %
24
+ Banyak pertanyaan DIMANA yang terpediksi benar sebesar: 29.41 %
25
+ Banyak pertanyaan KAPAN yang terpediksi benar sebesar: 65.44 %
26
  Banyak pertanyaan SIAPA yang terpediksi benar sebesar: 54.39 %
27
+ Banyak pertanyaan BAGAIMANA yang terpediksi benar sebesar: 20.0 %
28
  Banyak pertanyaan KENAPA yang terpediksi benar sebesar: 0.0 %
29
  Banyak pertanyaan BERAPA yang terpediksi benar sebesar: 64.89 %
30
+ Banyak pertanyaan LAINNYA yang terpediksi benar sebesar: 43.85 %
31
 
32
  --- Bagian tentang panjang context ---
33
  -- Bagian tentang panjang context yang terprediksi BENAR --
34
+ Panjang konteks < 100: 339, sebesar: 39.56 %
35
+ Panjang konteks 101 <= x <= 150: 103, sebesar: 12.02 %
36
  Panjang konteks 151 <= x <= 200: 0, sebesar: 0.0 %
37
  Panjang konteks 201 <= x <= 250: 0, sebesar: 0.0 %
38
  Panjang konteks 251 <= x <= 300: 0, sebesar: 0.0 %
39
  Panjang konteks > 300: 0, sebesar: 0.0 %
40
 
41
  -- Bagian tentang panjang context yang terprediksi SALAH --
42
+ Panjang konteks < 100: 249, sebesar: 29.05 %
43
+ Panjang konteks 101 <= x <= 150: 166, sebesar: 19.37 %
44
  Panjang konteks 151 <= x <= 200: 0, sebesar: 0.0 %
45
  Panjang konteks 201 <= x <= 250: 0, sebesar: 0.0 %
46
  Panjang konteks 251 <= x <= 300: 0, sebesar: 0.0 %
47
  Panjang konteks > 300: 0, sebesar: 0.0 %
48
 
49
  -- Presentase kebenaran --
50
+ Panjang konteks < 100 yang terprediksi benar sebesar: 57.65 %
51
+ Panjang konteks 101 <= x <= 150 yang terprediksi benar sebesar: 38.29 %
52
  Panjang konteks 151 <= x <= 200 yang terprediksi benar sebesar: 0 %
53
  Panjang konteks 201 <= x <= 250 yang terprediksi benar sebesar: 0 %
54
  Panjang konteks 251 <= x <= 300 yang terprediksi benar sebesar: 0 %
 
56
 
57
  --- Bagian tentang panjang question ---
58
  -- Bagian tentang panjang question yang terprediksi BENAR --
59
+ Panjang question 1 <= x <= 5: 314, sebesar: 36.64 %
60
+ Panjang question 6 <= x <= 10: 128, sebesar: 14.94 %
61
  Panjang question 11 <= x <= 15: 0, sebesar: 0.0 %
62
  Panjang question 16 <= x <= 20: 0, sebesar: 0.0 %
63
  Panjang question > 20: 0, sebesar: 0.0 %
64
 
65
  -- Bagian tentang panjang question yang terprediksi SALAH --
66
+ Panjang question 1 <= x <= 5: 238, sebesar: 27.77 %
67
+ Panjang question 6 <= x <= 10: 177, sebesar: 20.65 %
68
  Panjang question 11 <= x <= 15: 0, sebesar: 0.0 %
69
  Panjang question 16 <= x <= 20: 0, sebesar: 0.0 %
70
  Panjang question > 20: 0, sebesar: 0.0 %
71
 
72
  -- Presentase kebenaran --
73
+ Panjang question 1 <= x <= 5 yang terprediksi benar sebesar: 56.88 %
74
+ Panjang question 6 <= x <= 10 yang terprediksi benar sebesar: 41.97 %
75
  Panjang question 11 <= x <= 15 yang terprediksi benar sebesar: 0 %
76
  Panjang question 16 <= x <= 20 yang terprediksi benar sebesar: 0 %
77
  Panjang question > 20 yang terprediksi benar sebesar: 0 %
78
 
79
  --- Bagian tentang panjang gold answer ---
80
  -- Bagian tentang panjang gold answer yang terprediksi BENAR --
81
+ Panjang question 1 <= x <= 5: 347, sebesar: 40.49 %
82
+ Panjang question 6 <= x <= 10: 95, sebesar: 11.09 %
83
  Panjang question 11 <= x <= 15: 0, sebesar: 0.0 %
84
  Panjang question 16 <= x <= 20: 0, sebesar: 0.0 %
85
  Panjang question > 20: 0, sebesar: 0.0 %
86
 
87
  -- Bagian tentang panjang gold answer yang terprediksi SALAH --
88
+ Panjang question 1 <= x <= 5: 267, sebesar: 31.16 %
89
+ Panjang question 6 <= x <= 10: 148, sebesar: 17.27 %
90
  Panjang question 11 <= x <= 15: 0, sebesar: 0.0 %
91
  Panjang question 16 <= x <= 20: 0, sebesar: 0.0 %
92
  Panjang question > 20: 0, sebesar: 0.0 %
93
 
94
  -- Presentase kebenaran --
95
+ Panjang question 1 <= x <= 5 yang terprediksi benar sebesar: 56.51 %
96
+ Panjang question 6 <= x <= 10 yang terprediksi benar sebesar: 39.09 %
97
  Panjang question 11 <= x <= 15 yang terprediksi benar sebesar: 0 %
98
  Panjang question 16 <= x <= 20 yang terprediksi benar sebesar: 0 %
99
  Panjang question > 20 yang terprediksi benar sebesar: 0 %
100
 
101
  --- Bagian tentang answer type ---
102
  -- Bagian tentang answer type yang terprediksi BENAR --
103
+ Banyak answer type Person sebanyak: 59, sekitar 6.190975865687303 %
104
+ Banyak answer type NORP sebanyak: 5, sekitar 0.5246589716684155 %
105
+ Banyak answer type Facility sebanyak: 4, sekitar 0.4197271773347324 %
106
  Banyak answer type Organization sebanyak: 3, sekitar 0.3147953830010493 %
107
+ Banyak answer type Geo-Political Entity sebanyak: 24, sekitar 2.5183630640083945 %
108
+ Banyak answer type Location sebanyak: 11, sekitar 1.154249737670514 %
109
+ Banyak answer type Product sebanyak: 32, sekitar 3.3578174186778593 %
110
+ Banyak answer type Event sebanyak: 3, sekitar 0.3147953830010493 %
111
+ Banyak answer type Work of Art sebanyak: 8, sekitar 0.8394543546694648 %
112
  Banyak answer type Law sebanyak: 0, sekitar 0.0 %
113
  Banyak answer type Language sebanyak: 2, sekitar 0.2098635886673662 %
114
+ Banyak answer type Date sebanyak: 90, sekitar 9.44386149003148 %
115
  Banyak answer type Time sebanyak: 0, sekitar 0.0 %
116
  Banyak answer type Percent sebanyak: 0, sekitar 0.0 %
117
+ Banyak answer type Money sebanyak: 5, sekitar 0.5246589716684155 %
118
  Banyak answer type Quantity sebanyak: 66, sekitar 6.925498426023085 %
119
+ Banyak answer type Ordinal sebanyak: 21, sekitar 2.2035676810073452 %
120
+ Banyak answer type Cardinal sebanyak: 25, sekitar 2.6232948583420774 %
121
  Banyak answer type REG sebanyak: 9, sekitar 0.944386149003148 %
122
+ Banyak answer type Null sebanyak: 114, sekitar 11.962224554039874 %
123
 
124
  -- Bagian tentang answer type yang terprediksi SALAH --
125
+ Banyak answer type Person sebanyak: 44, sekitar 4.616998950682056 %
126
+ Banyak answer type NORP sebanyak: 11, sekitar 1.154249737670514 %
127
+ Banyak answer type Facility sebanyak: 1, sekitar 0.1049317943336831 %
128
  Banyak answer type Organization sebanyak: 12, sekitar 1.2591815320041972 %
129
+ Banyak answer type Geo-Political Entity sebanyak: 62, sekitar 6.505771248688353 %
130
+ Banyak answer type Location sebanyak: 24, sekitar 2.5183630640083945 %
131
+ Banyak answer type Product sebanyak: 46, sekitar 4.826862539349422 %
132
+ Banyak answer type Event sebanyak: 2, sekitar 0.2098635886673662 %
133
+ Banyak answer type Work of Art sebanyak: 6, sekitar 0.6295907660020986 %
134
  Banyak answer type Law sebanyak: 0, sekitar 0.0 %
135
  Banyak answer type Language sebanyak: 1, sekitar 0.1049317943336831 %
136
+ Banyak answer type Date sebanyak: 50, sekitar 5.246589716684155 %
137
  Banyak answer type Time sebanyak: 0, sekitar 0.0 %
138
  Banyak answer type Percent sebanyak: 1, sekitar 0.1049317943336831 %
139
+ Banyak answer type Money sebanyak: 4, sekitar 0.4197271773347324 %
140
  Banyak answer type Quantity sebanyak: 19, sekitar 1.993704092339979 %
141
+ Banyak answer type Ordinal sebanyak: 14, sekitar 1.4690451206715633 %
142
+ Banyak answer type Cardinal sebanyak: 28, sekitar 2.9380902413431267 %
143
  Banyak answer type REG sebanyak: 14, sekitar 1.4690451206715633 %
144
+ Banyak answer type Null sebanyak: 133, sekitar 13.955928646379853 %
145
 
146
  -- Presentase kebenaran --
147
+ Banyak answer type Person yang terprediksi benar sebesar: 57.28 %
148
+ Banyak answer type NORP yang terprediksi benar sebesar: 31.25 %
149
+ Banyak answer type Facility yang terprediksi benar sebesar: 80.0 %
150
  Banyak answer type Organization yang terprediksi benar sebesar: 20.0 %
151
+ Banyak answer type Geo-Political Entity yang terprediksi benar sebesar: 27.91 %
152
+ Banyak answer type Location yang terprediksi benar sebesar: 31.43 %
153
+ Banyak answer type Product yang terprediksi benar sebesar: 41.03 %
154
+ Banyak answer type Event yang terprediksi benar sebesar: 60.0 %
155
+ Banyak answer type Work of Art yang terprediksi benar sebesar: 57.14 %
156
  Banyak answer type Law yang terprediksi benar sebesar: 0 %
157
  Banyak answer type Language yang terprediksi benar sebesar: 66.67 %
158
+ Banyak answer type Date yang terprediksi benar sebesar: 64.29 %
159
  Banyak answer type Time yang terprediksi benar sebesar: 0 %
160
  Banyak answer type Percent yang terprediksi benar sebesar: 0.0 %
161
+ Banyak answer type Money yang terprediksi benar sebesar: 55.56 %
162
  Banyak answer type Quantity yang terprediksi benar sebesar: 77.65 %
163
+ Banyak answer type Ordinal yang terprediksi benar sebesar: 60.0 %
164
+ Banyak answer type Cardinal yang terprediksi benar sebesar: 47.17 %
165
  Banyak answer type REG yang terprediksi benar sebesar: 39.13 %
166
+ Banyak answer type Null yang terprediksi benar sebesar: 46.15 %
167
 
168
  --- Bagian tentang reasoning type ---
169
  -- Bagian tentang reasoning type yang terprediksi BENAR --
170
  Banyak reasoning type berjenis WM sebanyak: 5, sebesar: 5.0 %
171
+ Banyak reasoning type berjenis PP sebanyak: 16, sebesar: 16.0 %
172
+ Banyak reasoning type berjenis SSR sebanyak: 8, sebesar: 8.0 %
173
+ Banyak reasoning type berjenis MSR sebanyak: 10, sebesar: 10.0 %
174
+ Banyak reasoning type berjenis AoI sebanyak: 9, sebesar: 9.0 %
175
 
176
  -- Bagian tentang reasoning type yang terprediksi SALAH --
177
  Banyak reasoning type berjenis WM sebanyak: 4, sebesar: 4.0 %
178
+ Banyak reasoning type berjenis PP sebanyak: 16, sebesar: 16.0 %
179
+ Banyak reasoning type berjenis SSR sebanyak: 9, sebesar: 9.0 %
180
+ Banyak reasoning type berjenis MSR sebanyak: 12, sebesar: 12.0 %
181
+ Banyak reasoning type berjenis AoI sebanyak: 11, sebesar: 11.0 %
182
 
183
  -- Presentase kebenaran --
184
  Banyak reasoning type berjenis WM yang terprediksi benar sebesar: 55.56 %
185
+ Banyak reasoning type berjenis PP yang terprediksi benar sebesar: 50.0 %
186
+ Banyak reasoning type berjenis SSR yang terprediksi benar sebesar: 47.06 %
187
+ Banyak reasoning type berjenis MSR yang terprediksi benar sebesar: 45.45 %
188
+ Banyak reasoning type berjenis AoI yang terprediksi benar sebesar: 45.0 %
189
 
results/evaluation/metric_result.txt CHANGED
@@ -1 +1 @@
1
- {'exact_match': 54.14235705950992, 'f1': 66.94243382085831}
 
1
+ {'exact_match': 51.5752625437573, 'f1': 63.9944639976603}