File size: 15,642 Bytes
40ad559
 
 
96ecbe0
40ad559
 
96ecbe0
 
 
 
 
 
 
40ad559
d68cb47
40ad559
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d68cb47
 
 
 
96ecbe0
d68cb47
96ecbe0
 
 
 
 
40ad559
 
 
96ecbe0
40ad559
96ecbe0
40ad559
96ecbe0
d68cb47
 
 
40ad559
d68cb47
 
 
40ad559
96ecbe0
d68cb47
96ecbe0
 
 
 
 
40ad559
 
 
96ecbe0
d68cb47
96ecbe0
40ad559
96ecbe0
d68cb47
40ad559
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d68cb47
40ad559
d68cb47
40ad559
96ecbe0
40ad559
96ecbe0
 
 
 
 
40ad559
d68cb47
40ad559
96ecbe0
40ad559
96ecbe0
40ad559
96ecbe0
d68cb47
40ad559
d68cb47
 
 
40ad559
d68cb47
40ad559
96ecbe0
d68cb47
96ecbe0
 
 
 
 
40ad559
 
 
96ecbe0
40ad559
96ecbe0
40ad559
96ecbe0
d68cb47
 
 
 
d7187dc
40ad559
96ecbe0
 
 
40ad559
d7187dc
96ecbe0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
loading env vars from: /common2/dh.huang.2023/code/logical-reasoning/.env
Adding /common2/dh.huang.2023/code/logical-reasoning to sys.path
loading /common2/dh.huang.2023/code/logical-reasoning/llm_toolkit/logical_reasoning_utils.py
shenzhi-wang/Llama3-8B-Chinese-Chat llama-factory/saves/llama3-8b/lora/sft_bf16_p1_full_r4/checkpoint-70 False datasets/mgtv results/llama3-8b_lora_sft_bf16-p1_r4.csv
(1) GPU = NVIDIA L40. Max memory = 44.309 GB.
0.0 GB of memory reserved.
loading model: shenzhi-wang/Llama3-8B-Chinese-Chat with adapter: llama-factory/saves/llama3-8b/lora/sft_bf16_p1_full_r4/checkpoint-70
07/24/2024 05:55:13 - INFO - llamafactory.data.template - Replace eos token: <|eot_id|>
07/24/2024 05:55:13 - INFO - llamafactory.model.patcher - Using KV cache for faster generation.
07/24/2024 05:55:22 - INFO - llamafactory.model.model_utils.attention - Using torch SDPA for faster training and inference.
07/24/2024 05:55:22 - INFO - llamafactory.model.adapter - Merged 1 adapter(s).
07/24/2024 05:55:22 - INFO - llamafactory.model.adapter - Loaded adapter(s): llama-factory/saves/llama3-8b/lora/sft_bf16_p1_full_r4/checkpoint-70
07/24/2024 05:55:22 - INFO - llamafactory.model.loader - all params: 8,030,261,248
(2) GPU = NVIDIA L40. Max memory = 44.309 GB.
15.502 GB of memory reserved.
loading train/test data files
DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'answer', 'title', 'puzzle', 'truth', 'train_text', 'prompt'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label', 'answer', 'title', 'puzzle', 'truth', 'train_text', 'prompt'],
        num_rows: 3000
    })
})
--------------------------------------------------
text: 甄加索是自杀吗
--------------------------------------------------
label: 不是
--------------------------------------------------
answer: nan
--------------------------------------------------
title: 海岸之谜
--------------------------------------------------
puzzle: 在远离城市喧嚣的海边小屋,一天清晨,邻居发现甄加索僵卧在沙滩上,已无生命迹象。现场没有发现任何打斗的迹象。请问甄加索的死因是什么?
--------------------------------------------------
truth: 甄加索是一位热爱自然的画家,他每年都会来到这个海边小屋寻找灵感。在他生命的最后几天,他一直在创作一幅描绘海洋生物的画作。在画即将完成的前一天晚上,他骑着自行车外出,打算在海边观赏夜景。然而,他在沙滩上意外发现了一只搁浅的海豚,为了救助这只海豚,他耗费了极大的体力,最终成功将其送回海中。筋疲力尽的甄加索在沙滩上睡着了,由于他患有严重的心脏病,却未告知旁人,在寒冷的海风中,他的心脏停止了跳动。因此,警方在现场只发现了车轮痕迹和未完成的画作,而没有发现任何他杀的迹象。
--------------------------------------------------
train_text: <|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an expert in logical reasoning.<|eot_id|><|start_header_id|>user<|end_header_id|>

你是一个逻辑游戏的主持人。游戏规则如下:

1. 参与者会得到一个谜题。
2. 参与者可以通过提问来获取线索,尝试解开谜题。
3. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。
4. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。
5. 参与者需要根据回答来推理,并最终找出谜题的正确答案。

请严格按照这些规则回答参与者提出的问题。

谜题: 在远离城市喧嚣的海边小屋,一天清晨,邻居发现甄加索僵卧在沙滩上,已无生命迹象。现场没有发现任何打斗的迹象。请问甄加索的死因是什么?

实际情况: 甄加索是一位热爱自然的画家,他每年都会来到这个海边小屋寻找灵感。在他生命的最后几天,他一直在创作一幅描绘海洋生物的画作。在画即将完成的前一天晚上,他骑着自行车外出,打算在海边观赏夜景。然而,他在沙滩上意外发现了一只搁浅的海豚,为了救助这只海豚,他耗费了极大的体力,最终成功将其送回海中。筋疲力尽的甄加索在沙滩上睡着了,由于他患有严重的心脏病,却未告知旁人,在寒冷的海风中,他的心脏停止了跳动。因此,警方在现场只发现了车轮痕迹和未完成的画作,而没有发现任何他杀的迹象。

参与者提出的问题: 甄加索是自杀吗
<|eot_id|><|start_header_id|>assistant<|end_header_id|>

不是<|eot_id|>
--------------------------------------------------
prompt: <|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an expert in logical reasoning.<|eot_id|><|start_header_id|>user<|end_header_id|>

你是一个逻辑游戏的主持人。游戏规则如下:

1. 参与者会得到一个谜题。
2. 参与者可以通过提问来获取线索,尝试解开谜题。
3. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。
4. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。
5. 参与者需要根据回答来推理,并最终找出谜题的正确答案。

请严格按照这些规则回答参与者提出的问题。

谜题: 在远离城市喧嚣的海边小屋,一天清晨,邻居发现甄加索僵卧在沙滩上,已无生命迹象。现场没有发现任何打斗的迹象。请问甄加索的死因是什么?

实际情况: 甄加索是一位热爱自然的画家,他每年都会来到这个海边小屋寻找灵感。在他生命的最后几天,他一直在创作一幅描绘海洋生物的画作。在画即将完成的前一天晚上,他骑着自行车外出,打算在海边观赏夜景。然而,他在沙滩上意外发现了一只搁浅的海豚,为了救助这只海豚,他耗费了极大的体力,最终成功将其送回海中。筋疲力尽的甄加索在沙滩上睡着了,由于他患有严重的心脏病,却未告知旁人,在寒冷的海风中,他的心脏停止了跳动。因此,警方在现场只发现了车轮痕迹和未完成的画作,而没有发现任何他杀的迹象。

参与者提出的问题: 甄加索是自杀吗
<|eot_id|><|start_header_id|>assistant<|end_header_id|>


--------------------------------------------------
text: 死者受伤了吗
--------------------------------------------------
label: 不是
--------------------------------------------------
answer: nan
--------------------------------------------------
title: 甄庄哭声
--------------------------------------------------
puzzle: 在一个安静的夜晚,小村庄的湖边突然传来了阵阵哭泣声。第二天早晨,村长甄锐发现湖边的石头上放着一顶破旧的帽子,但没有人知道这顶帽子是从哪里来的,哭泣声又是为何。请还原故事真相。
--------------------------------------------------
truth: 原来,这顶破旧的帽子属于一个小男孩,他小时候与爷爷在湖边生活。爷爷教他钓鱼、游泳,还告诉他湖中的海龟是他们的朋友。后来,小男孩随父母去了城市生活,但每年夏天都会回到村子探望爷爷。然而,去年夏天,爷爷因病去世,小男孩伤心欲绝。今年夏天,他回到村子,来到湖边,想起和爷爷的美好回忆,忍不住哭泣。他将爷爷的帽子放在湖边的石头上,希望能让爷爷的在天之灵得到安慰。那晚的哭泣声正是小男孩在祭莫他亲爱的爷爷。
--------------------------------------------------
train_text: <|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an expert in logical reasoning.<|eot_id|><|start_header_id|>user<|end_header_id|>

你是一个逻辑游戏的主持人。游戏规则如下:

1. 参与者会得到一个谜题。
2. 参与者可以通过提问来获取线索,尝试解开谜题。
3. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。
4. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。
5. 参与者需要根据回答来推理,并最终找出谜题的正确答案。

请严格按照这些规则回答参与者提出的问题。

谜题: 在一个安静的夜晚,小村庄的湖边突然传来了阵阵哭泣声。第二天早晨,村长甄锐发现湖边的石头上放着一顶破旧的帽子,但没有人知道这顶帽子是从哪里来的,哭泣声又是为何。请还原故事真相。

实际情况: 原来,这顶破旧的帽子属于一个小男孩,他小时候与爷爷在湖边生活。爷爷教他钓鱼、游泳,还告诉他湖中的海龟是他们的朋友。后来,小男孩随父母去了城市生活,但每年夏天都会回到村子探望爷爷。然而,去年夏天,爷爷因病去世,小男孩伤心欲绝。今年夏天,他回到村子,来到湖边,想起和爷爷的美好回忆,忍不住哭泣。他将爷爷的帽子放在湖边的石头上,希望能让爷爷的在天之灵得到安慰。那晚的哭泣声正是小男孩在祭莫他亲爱的爷爷。

参与者提出的问题: 死者受伤了吗
<|eot_id|><|start_header_id|>assistant<|end_header_id|>

不是<|eot_id|>
--------------------------------------------------
prompt: <|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an expert in logical reasoning.<|eot_id|><|start_header_id|>user<|end_header_id|>

你是一个逻辑游戏的主持人。游戏规则如下:

1. 参与者会得到一个谜题。
2. 参与者可以通过提问来获取线索,尝试解开谜题。
3. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。
4. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。
5. 参与者需要根据回答来推理,并最终找出谜题的正确答案。

请严格按照这些规则回答参与者提出的问题。

谜题: 在一个安静的夜晚,小村庄的湖边突然传来了阵阵哭泣声。第二天早晨,村长甄锐发现湖边的石头上放着一顶破旧的帽子,但没有人知道这顶帽子是从哪里来的,哭泣声又是为何。请还原故事真相。

实际情况: 原来,这顶破旧的帽子属于一个小男孩,他小时候与爷爷在湖边生活。爷爷教他钓鱼、游泳,还告诉他湖中的海龟是他们的朋友。后来,小男孩随父母去了城市生活,但每年夏天都会回到村子探望爷爷。然而,去年夏天,爷爷因病去世,小男孩伤心欲绝。今年夏天,他回到村子,来到湖边,想起和爷爷的美好回忆,忍不住哭泣。他将爷爷的帽子放在湖边的石头上,希望能让爷爷的在天之灵得到安慰。那晚的哭泣声正是小男孩在祭莫他亲爱的爷爷。

参与者提出的问题: 死者受伤了吗
<|eot_id|><|start_header_id|>assistant<|end_header_id|>


Evaluating model: shenzhi-wang/Llama3-8B-Chinese-Chat
Batch output: ['不是']
(3) GPU = NVIDIA L40. Max memory = 44.309 GB.
20.195 GB of memory reserved.
      text  ... shenzhi-wang/Llama3-8B-Chinese-Chat/checkpoint-70_torch.bfloat16_lf
0  甄加索是自杀吗  ...                                                 不是                 

[1 rows x 8 columns]
{'accuracy': 0.778, 'incorrect_ids': [6, 9, 18, 31, 36, 52, 55, 58, 59, 62, 64, 65, 66, 67, 78, 83, 84, 85, 88, 93, 96, 102, 106, 108, 110, 112, 115, 139, 143, 149, 150, 153, 155, 156, 161, 163, 164, 170, 173, 174, 179, 190, 193, 199, 200, 202, 208, 223, 224, 225, 227, 228, 233, 236, 243, 245, 248, 250, 251, 252, 253, 255, 259, 260, 261, 263, 268, 275, 276, 279, 283, 284, 293, 301, 304, 308, 309, 314, 318, 321, 323, 328, 330, 332, 334, 335, 338, 343, 350, 352, 353, 355, 356, 360, 361, 368, 377, 383, 384, 386, 389, 395, 397, 410, 416, 430, 432, 437, 438, 440, 445, 446, 447, 450, 454, 457, 458, 469, 470, 471, 473, 476, 480, 493, 494, 495, 497, 499, 501, 502, 503, 506, 507, 510, 511, 512, 514, 517, 519, 530, 531, 536, 538, 543, 560, 570, 571, 579, 581, 589, 591, 593, 597, 601, 614, 621, 622, 636, 643, 644, 651, 663, 666, 671, 673, 674, 682, 684, 686, 690, 691, 695, 702, 721, 729, 730, 732, 734, 735, 740, 752, 754, 770, 771, 774, 778, 779, 788, 791, 795, 798, 799, 801, 805, 809, 813, 817, 818, 819, 820, 821, 823, 824, 826, 827, 828, 837, 840, 843, 847, 851, 857, 861, 866, 869, 870, 871, 875, 876, 886, 889, 890, 895, 901, 904, 912, 913, 927, 928, 945, 949, 953, 956, 966, 969, 980, 991, 994, 1001, 1003, 1011, 1012, 1014, 1019, 1022, 1028, 1032, 1036, 1038, 1043, 1049, 1051, 1057, 1061, 1066, 1069, 1077, 1080, 1087, 1096, 1107, 1120, 1125, 1126, 1141, 1143, 1147, 1166, 1172, 1174, 1177, 1180, 1181, 1183, 1185, 1198, 1203, 1209, 1220, 1228, 1232, 1239, 1240, 1241, 1247, 1251, 1252, 1254, 1256, 1258, 1259, 1266, 1274, 1276, 1282, 1289, 1292, 1299, 1305, 1308, 1311, 1313, 1314, 1317, 1322, 1326, 1331, 1339, 1342, 1349, 1353, 1358, 1363, 1364, 1365, 1367, 1379, 1385, 1386, 1387, 1389, 1391, 1392, 1393, 1395, 1406, 1409, 1412, 1420, 1422, 1426, 1430, 1432, 1439, 1440, 1444, 1445, 1448, 1450, 1451, 1452, 1453, 1457, 1462, 1469, 1473, 1476, 1477, 1478, 1490, 1491, 1492, 1494, 1495, 1496, 1500, 1504, 1512, 1516, 1517, 1518, 1525, 1526, 1536, 1542, 1545, 1547, 1554, 1560, 1561, 1562, 1568, 1580, 1581, 1585, 1587, 1590, 1591, 1593, 1602, 1603, 1604, 1605, 1607, 1613, 1622, 1624, 1627, 1633, 1636, 1637, 1638, 1641, 1645, 1650, 1654, 1655, 1658, 1662, 1668, 1672, 1674, 1679, 1686, 1695, 1699, 1716, 1718, 1726, 1727, 1734, 1736, 1737, 1745, 1751, 1753, 1756, 1769, 1770, 1778, 1780, 1782, 1786, 1791, 1798, 1799, 1810, 1811, 1812, 1816, 1824, 1835, 1848, 1860, 1867, 1879, 1888, 1890, 1894, 1897, 1907, 1933, 1935, 1936, 1940, 1953, 1958, 1959, 1963, 1964, 1973, 1978, 1981, 1986, 1990, 1995, 2014, 2017, 2028, 2029, 2035, 2038, 2046, 2048, 2054, 2062, 2064, 2072, 2077, 2088, 2100, 2106, 2109, 2110, 2114, 2118, 2119, 2121, 2124, 2126, 2147, 2159, 2160, 2162, 2164, 2172, 2173, 2174, 2177, 2185, 2186, 2188, 2192, 2193, 2194, 2196, 2199, 2212, 2213, 2222, 2223, 2226, 2230, 2233, 2237, 2238, 2240, 2243, 2244, 2247, 2250, 2260, 2261, 2262, 2265, 2274, 2278, 2281, 2287, 2297, 2311, 2312, 2313, 2320, 2324, 2328, 2334, 2344, 2348, 2351, 2352, 2354, 2361, 2364, 2366, 2378, 2379, 2395, 2396, 2400, 2401, 2404, 2408, 2409, 2410, 2412, 2420, 2423, 2425, 2429, 2437, 2440, 2441, 2442, 2465, 2471, 2472, 2475, 2486, 2503, 2515, 2522, 2529, 2530, 2532, 2535, 2538, 2546, 2549, 2556, 2560, 2562, 2575, 2577, 2589, 2592, 2594, 2600, 2605, 2616, 2623, 2629, 2633, 2635, 2644, 2663, 2664, 2667, 2686, 2707, 2710, 2712, 2714, 2716, 2717, 2719, 2726, 2731, 2732, 2736, 2742, 2744, 2745, 2746, 2754, 2757, 2758, 2760, 2762, 2765, 2766, 2769, 2770, 2772, 2775, 2776, 2777, 2788, 2791, 2792, 2798, 2801, 2807, 2810, 2811, 2814, 2815, 2816, 2824, 2837, 2841, 2843, 2850, 2851, 2854, 2857, 2867, 2870, 2877, 2880, 2882, 2884, 2905, 2912, 2915, 2916, 2921, 2922, 2933, 2937, 2942, 2944, 2949, 2953, 2955, 2960, 2964, 2966, 2968, 2975, 2976, 2979, 2980, 2985, 2995, 2998]}