Spaces:
Build error
Build error
File size: 19,284 Bytes
1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 1c71523 ae296ad 5f8e689 1c71523 5f8e689 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 |
loading env vars from: /common2/dh.huang.2023/code/logical-reasoning/.env Adding /common2/dh.huang.2023/code/logical-reasoning to sys.path loading /common2/dh.huang.2023/code/logical-reasoning/llm_toolkit/logical_reasoning_utils.py THUDM/glm-4-9b-chat-1m llama-factory/saves/glm-4-9b/lora/sft_bf16_p2_full/checkpoint-175 False datasets/mgtv results/glm-4-9b_lora_sft_bf16-p2.csv (1) GPU = NVIDIA L40. Max memory = 44.309 GB. 0.0 GB of memory reserved. loading model: THUDM/glm-4-9b-chat-1m with adapter: llama-factory/saves/glm-4-9b/lora/sft_bf16_p2_full/checkpoint-175 (2) GPU = NVIDIA L40. Max memory = 44.309 GB. 17.828 GB of memory reserved. loading train/test data files DatasetDict({ train: Dataset({ features: ['text', 'label', 'answer', 'title', 'puzzle', 'truth', 'train_text', 'prompt'], num_rows: 25000 }) test: Dataset({ features: ['text', 'label', 'answer', 'title', 'puzzle', 'truth', 'train_text', 'prompt'], num_rows: 3000 }) }) -------------------------------------------------- text: 甄加索是自杀吗 -------------------------------------------------- label: 不是 -------------------------------------------------- answer: nan -------------------------------------------------- title: 海岸之谜 -------------------------------------------------- puzzle: 在远离城市喧嚣的海边小屋,一天清晨,邻居发现甄加索僵卧在沙滩上,已无生命迹象。现场没有发现任何打斗的迹象。请问甄加索的死因是什么? -------------------------------------------------- truth: 甄加索是一位热爱自然的画家,他每年都会来到这个海边小屋寻找灵感。在他生命的最后几天,他一直在创作一幅描绘海洋生物的画作。在画即将完成的前一天晚上,他骑着自行车外出,打算在海边观赏夜景。然而,他在沙滩上意外发现了一只搁浅的海豚,为了救助这只海豚,他耗费了极大的体力,最终成功将其送回海中。筋疲力尽的甄加索在沙滩上睡着了,由于他患有严重的心脏病,却未告知旁人,在寒冷的海风中,他的心脏停止了跳动。因此,警方在现场只发现了车轮痕迹和未完成的画作,而没有发现任何他杀的迹象。 -------------------------------------------------- train_text: [gMASK]<sop><|system|> You are an expert in logical reasoning.<|user|> 你是一个情景猜谜游戏的主持人。游戏规则如下: 1. 参与者会得到一个谜面,谜面会描述一个简单又难以理解的事件。 2. 主持人知道谜底,谜底是谜面的答案。 3. 参与者可以询问任何封闭式问题来找寻事件的真相。 4. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。各回答的判断标准如下: - 若谜面和谜底能找到问题的答案,回答:是或者不是 - 若谜面和谜底不能直接或者间接推断出问题的答案,回答:不重要 - 若参与者提问不是一个封闭式问题或者问题难以理解,回答:问法错误 - 若参与者提问基本还原了谜底真相,回答:回答正确 5. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。 请严格按照这些规则回答参与者提出的问题。 **谜面:** 在远离城市喧嚣的海边小屋,一天清晨,邻居发现甄加索僵卧在沙滩上,已无生命迹象。现场没有发现任何打斗的迹象。请问甄加索的死因是什么? **谜底:** 甄加索是一位热爱自然的画家,他每年都会来到这个海边小屋寻找灵感。在他生命的最后几天,他一直在创作一幅描绘海洋生物的画作。在画即将完成的前一天晚上,他骑着自行车外出,打算在海边观赏夜景。然而,他在沙滩上意外发现了一只搁浅的海豚,为了救助这只海豚,他耗费了极大的体力,最终成功将其送回海中。筋疲力尽的甄加索在沙滩上睡着了,由于他患有严重的心脏病,却未告知旁人,在寒冷的海风中,他的心脏停止了跳动。因此,警方在现场只发现了车轮痕迹和未完成的画作,而没有发现任何他杀的迹象。 **参与者提出的问题:** 甄加索是自杀吗 <|assistant|>不是<|endoftext|> -------------------------------------------------- prompt: [gMASK]<sop><|system|> You are an expert in logical reasoning.<|user|> 你是一个情景猜谜游戏的主持人。游戏规则如下: 1. 参与者会得到一个谜面,谜面会描述一个简单又难以理解的事件。 2. 主持人知道谜底,谜底是谜面的答案。 3. 参与者可以询问任何封闭式问题来找寻事件的真相。 4. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。各回答的判断标准如下: - 若谜面和谜底能找到问题的答案,回答:是或者不是 - 若谜面和谜底不能直接或者间接推断出问题的答案,回答:不重要 - 若参与者提问不是一个封闭式问题或者问题难以理解,回答:问法错误 - 若参与者提问基本还原了谜底真相,回答:回答正确 5. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。 请严格按照这些规则回答参与者提出的问题。 **谜面:** 在远离城市喧嚣的海边小屋,一天清晨,邻居发现甄加索僵卧在沙滩上,已无生命迹象。现场没有发现任何打斗的迹象。请问甄加索的死因是什么? **谜底:** 甄加索是一位热爱自然的画家,他每年都会来到这个海边小屋寻找灵感。在他生命的最后几天,他一直在创作一幅描绘海洋生物的画作。在画即将完成的前一天晚上,他骑着自行车外出,打算在海边观赏夜景。然而,他在沙滩上意外发现了一只搁浅的海豚,为了救助这只海豚,他耗费了极大的体力,最终成功将其送回海中。筋疲力尽的甄加索在沙滩上睡着了,由于他患有严重的心脏病,却未告知旁人,在寒冷的海风中,他的心脏停止了跳动。因此,警方在现场只发现了车轮痕迹和未完成的画作,而没有发现任何他杀的迹象。 **参与者提出的问题:** 甄加索是自杀吗 <|assistant|> -------------------------------------------------- text: 死者受伤了吗 -------------------------------------------------- label: 不是 -------------------------------------------------- answer: nan -------------------------------------------------- title: 甄庄哭声 -------------------------------------------------- puzzle: 在一个安静的夜晚,小村庄的湖边突然传来了阵阵哭泣声。第二天早晨,村长甄锐发现湖边的石头上放着一顶破旧的帽子,但没有人知道这顶帽子是从哪里来的,哭泣声又是为何。请还原故事真相。 -------------------------------------------------- truth: 原来,这顶破旧的帽子属于一个小男孩,他小时候与爷爷在湖边生活。爷爷教他钓鱼、游泳,还告诉他湖中的海龟是他们的朋友。后来,小男孩随父母去了城市生活,但每年夏天都会回到村子探望爷爷。然而,去年夏天,爷爷因病去世,小男孩伤心欲绝。今年夏天,他回到村子,来到湖边,想起和爷爷的美好回忆,忍不住哭泣。他将爷爷的帽子放在湖边的石头上,希望能让爷爷的在天之灵得到安慰。那晚的哭泣声正是小男孩在祭莫他亲爱的爷爷。 -------------------------------------------------- train_text: [gMASK]<sop><|system|> You are an expert in logical reasoning.<|user|> 你是一个情景猜谜游戏的主持人。游戏规则如下: 1. 参与者会得到一个谜面,谜面会描述一个简单又难以理解的事件。 2. 主持人知道谜底,谜底是谜面的答案。 3. 参与者可以询问任何封闭式问题来找寻事件的真相。 4. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。各回答的判断标准如下: - 若谜面和谜底能找到问题的答案,回答:是或者不是 - 若谜面和谜底不能直接或者间接推断出问题的答案,回答:不重要 - 若参与者提问不是一个封闭式问题或者问题难以理解,回答:问法错误 - 若参与者提问基本还原了谜底真相,回答:回答正确 5. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。 请严格按照这些规则回答参与者提出的问题。 **谜面:** 在一个安静的夜晚,小村庄的湖边突然传来了阵阵哭泣声。第二天早晨,村长甄锐发现湖边的石头上放着一顶破旧的帽子,但没有人知道这顶帽子是从哪里来的,哭泣声又是为何。请还原故事真相。 **谜底:** 原来,这顶破旧的帽子属于一个小男孩,他小时候与爷爷在湖边生活。爷爷教他钓鱼、游泳,还告诉他湖中的海龟是他们的朋友。后来,小男孩随父母去了城市生活,但每年夏天都会回到村子探望爷爷。然而,去年夏天,爷爷因病去世,小男孩伤心欲绝。今年夏天,他回到村子,来到湖边,想起和爷爷的美好回忆,忍不住哭泣。他将爷爷的帽子放在湖边的石头上,希望能让爷爷的在天之灵得到安慰。那晚的哭泣声正是小男孩在祭莫他亲爱的爷爷。 **参与者提出的问题:** 死者受伤了吗 <|assistant|>不是<|endoftext|> -------------------------------------------------- prompt: [gMASK]<sop><|system|> You are an expert in logical reasoning.<|user|> 你是一个情景猜谜游戏的主持人。游戏规则如下: 1. 参与者会得到一个谜面,谜面会描述一个简单又难以理解的事件。 2. 主持人知道谜底,谜底是谜面的答案。 3. 参与者可以询问任何封闭式问题来找寻事件的真相。 4. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。各回答的判断标准如下: - 若谜面和谜底能找到问题的答案,回答:是或者不是 - 若谜面和谜底不能直接或者间接推断出问题的答案,回答:不重要 - 若参与者提问不是一个封闭式问题或者问题难以理解,回答:问法错误 - 若参与者提问基本还原了谜底真相,回答:回答正确 5. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。 请严格按照这些规则回答参与者提出的问题。 **谜面:** 在一个安静的夜晚,小村庄的湖边突然传来了阵阵哭泣声。第二天早晨,村长甄锐发现湖边的石头上放着一顶破旧的帽子,但没有人知道这顶帽子是从哪里来的,哭泣声又是为何。请还原故事真相。 **谜底:** 原来,这顶破旧的帽子属于一个小男孩,他小时候与爷爷在湖边生活。爷爷教他钓鱼、游泳,还告诉他湖中的海龟是他们的朋友。后来,小男孩随父母去了城市生活,但每年夏天都会回到村子探望爷爷。然而,去年夏天,爷爷因病去世,小男孩伤心欲绝。今年夏天,他回到村子,来到湖边,想起和爷爷的美好回忆,忍不住哭泣。他将爷爷的帽子放在湖边的石头上,希望能让爷爷的在天之灵得到安慰。那晚的哭泣声正是小男孩在祭莫他亲爱的爷爷。 **参与者提出的问题:** 死者受伤了吗 <|assistant|> Evaluating model: THUDM/glm-4-9b-chat-1m -------- step 1: 不是 -------- step 2: 不是 -------- step 3: 不是 -------- step 4: 不是 -------- step 5: 不是 (3) GPU = NVIDIA L40. Max memory = 44.309 GB. 18.473 GB of memory reserved. text ... THUDM/glm-4-9b-chat-1m_checkpoint-700 0 甄加索是自杀吗 ... 不是 [1 rows x 10 columns] {'accuracy': 0.596, 'incorrect_ids': [7, 9, 10, 12, 15, 16, 17, 24, 26, 27, 28, 31, 33, 34, 35, 36, 38, 58, 60, 65, 66, 67, 69, 71, 72, 76, 78, 82, 83, 85, 90, 93, 94, 95, 97, 101, 102, 103, 104, 105, 109, 111, 112, 113, 115, 118, 121, 123, 127, 128, 131, 135, 136, 137, 138, 139, 141, 144, 150, 153, 155, 156, 161, 163, 164, 169, 170, 174, 175, 178, 179, 180, 188, 189, 190, 193, 199, 200, 202, 209, 214, 218, 221, 222, 223, 224, 225, 226, 227, 228, 230, 233, 234, 236, 237, 239, 243, 245, 250, 251, 252, 253, 254, 257, 260, 262, 263, 265, 268, 271, 272, 273, 276, 278, 279, 284, 286, 292, 293, 294, 295, 301, 305, 307, 308, 309, 311, 314, 315, 317, 320, 321, 323, 325, 326, 328, 330, 332, 333, 334, 335, 337, 338, 340, 344, 347, 348, 349, 350, 351, 353, 354, 355, 356, 360, 361, 362, 364, 365, 367, 368, 370, 371, 372, 373, 374, 375, 377, 378, 389, 395, 396, 397, 401, 410, 414, 419, 421, 425, 428, 429, 430, 431, 432, 436, 438, 445, 447, 452, 454, 456, 458, 459, 460, 461, 464, 465, 469, 471, 472, 473, 475, 476, 478, 480, 482, 487, 490, 492, 494, 496, 498, 500, 501, 502, 503, 504, 506, 507, 508, 509, 510, 511, 512, 513, 517, 518, 520, 530, 536, 538, 540, 543, 553, 560, 566, 567, 568, 570, 571, 579, 581, 589, 591, 592, 593, 597, 598, 599, 601, 612, 613, 614, 621, 625, 627, 628, 629, 632, 637, 641, 642, 643, 646, 649, 650, 653, 655, 656, 657, 661, 663, 665, 666, 668, 670, 671, 674, 676, 678, 682, 683, 686, 688, 690, 691, 693, 694, 695, 696, 701, 702, 703, 705, 708, 709, 714, 717, 718, 719, 721, 722, 723, 729, 730, 731, 732, 733, 734, 740, 743, 747, 752, 754, 757, 758, 760, 766, 769, 770, 772, 773, 774, 784, 785, 791, 795, 798, 800, 801, 803, 805, 809, 810, 812, 813, 815, 817, 818, 819, 820, 821, 823, 824, 827, 832, 833, 834, 835, 837, 840, 842, 843, 847, 848, 849, 851, 856, 861, 866, 867, 869, 870, 871, 873, 876, 878, 886, 889, 890, 891, 894, 896, 897, 901, 903, 904, 907, 909, 910, 913, 920, 927, 928, 936, 937, 941, 945, 950, 953, 954, 956, 957, 964, 965, 966, 969, 970, 972, 973, 980, 982, 986, 987, 991, 998, 1001, 1003, 1006, 1011, 1012, 1014, 1020, 1022, 1025, 1028, 1029, 1036, 1038, 1040, 1043, 1046, 1048, 1051, 1053, 1054, 1061, 1062, 1063, 1064, 1069, 1073, 1074, 1075, 1076, 1077, 1078, 1079, 1080, 1081, 1084, 1087, 1089, 1096, 1098, 1102, 1106, 1107, 1111, 1114, 1120, 1121, 1123, 1124, 1125, 1129, 1130, 1133, 1134, 1141, 1143, 1149, 1151, 1153, 1161, 1163, 1164, 1166, 1167, 1168, 1172, 1174, 1175, 1177, 1181, 1183, 1185, 1192, 1196, 1203, 1209, 1212, 1216, 1219, 1220, 1224, 1225, 1227, 1228, 1231, 1232, 1235, 1237, 1238, 1239, 1240, 1241, 1242, 1243, 1245, 1246, 1249, 1252, 1254, 1256, 1258, 1259, 1261, 1262, 1264, 1267, 1269, 1270, 1273, 1274, 1289, 1292, 1296, 1299, 1304, 1305, 1306, 1308, 1309, 1312, 1313, 1314, 1316, 1320, 1322, 1326, 1328, 1329, 1331, 1334, 1336, 1337, 1342, 1345, 1348, 1349, 1353, 1354, 1358, 1363, 1367, 1372, 1376, 1379, 1380, 1386, 1387, 1389, 1391, 1392, 1393, 1400, 1406, 1407, 1409, 1413, 1416, 1417, 1418, 1420, 1422, 1424, 1425, 1426, 1427, 1428, 1430, 1432, 1438, 1439, 1440, 1441, 1443, 1444, 1445, 1448, 1450, 1451, 1452, 1453, 1455, 1456, 1457, 1459, 1462, 1463, 1467, 1469, 1472, 1473, 1475, 1476, 1477, 1478, 1482, 1484, 1485, 1487, 1488, 1489, 1490, 1491, 1493, 1494, 1495, 1496, 1500, 1504, 1507, 1510, 1512, 1516, 1517, 1518, 1525, 1526, 1527, 1528, 1533, 1536, 1542, 1543, 1545, 1546, 1547, 1551, 1552, 1558, 1560, 1561, 1562, 1565, 1568, 1569, 1577, 1581, 1585, 1587, 1590, 1591, 1593, 1594, 1596, 1598, 1600, 1602, 1603, 1604, 1605, 1607, 1611, 1612, 1613, 1616, 1617, 1621, 1622, 1623, 1624, 1625, 1627, 1631, 1633, 1636, 1637, 1641, 1645, 1647, 1648, 1650, 1652, 1654, 1655, 1658, 1660, 1662, 1666, 1668, 1669, 1672, 1676, 1682, 1683, 1684, 1690, 1691, 1694, 1695, 1700, 1701, 1709, 1711, 1713, 1716, 1717, 1718, 1723, 1727, 1728, 1734, 1735, 1736, 1738, 1740, 1743, 1751, 1753, 1754, 1755, 1756, 1759, 1767, 1769, 1770, 1772, 1774, 1778, 1779, 1780, 1785, 1786, 1789, 1790, 1792, 1796, 1797, 1799, 1810, 1811, 1812, 1816, 1818, 1823, 1824, 1827, 1830, 1834, 1835, 1840, 1846, 1848, 1849, 1852, 1853, 1856, 1858, 1860, 1862, 1870, 1879, 1880, 1881, 1882, 1884, 1888, 1890, 1894, 1896, 1897, 1903, 1904, 1909, 1913, 1917, 1919, 1920, 1922, 1928, 1930, 1931, 1934, 1935, 1936, 1941, 1949, 1951, 1953, 1955, 1956, 1957, 1959, 1961, 1963, 1964, 1970, 1973, 1978, 1979, 1981, 1982, 1984, 1986, 1988, 1989, 1990, 1992, 1995, 1996, 1997, 2002, 2019, 2020, 2021, 2025, 2028, 2030, 2034, 2035, 2036, 2038, 2042, 2043, 2044, 2046, 2047, 2052, 2053, 2059, 2061, 2062, 2063, 2064, 2066, 2069, 2072, 2075, 2077, 2081, 2084, 2088, 2089, 2092, 2094, 2100, 2102, 2104, 2105, 2106, 2109, 2114, 2115, 2118, 2119, 2120, 2121, 2122, 2126, 2128, 2131, 2132, 2133, 2135, 2138, 2139, 2141, 2142, 2144, 2145, 2147, 2149, 2152, 2159, 2160, 2161, 2162, 2169, 2171, 2173, 2175, 2177, 2179, 2181, 2184, 2185, 2186, 2191, 2192, 2195, 2196, 2198, 2199, 2200, 2203, 2204, 2205, 2209, 2212, 2214, 2219, 2221, 2223, 2224, 2226, 2229, 2230, 2231, 2233, 2234, 2235, 2240, 2242, 2243, 2245, 2246, 2247, 2250, 2251, 2253, 2256, 2260, 2261, 2262, 2267, 2274, 2276, 2278, 2280, 2282, 2285, 2287, 2290, 2293, 2297, 2302, 2309, 2311, 2316, 2320, 2321, 2322, 2324, 2328, 2329, 2333, 2335, 2337, 2339, 2348, 2350, 2351, 2352, 2353, 2359, 2361, 2362, 2363, 2364, 2366, 2367, 2368, 2373, 2376, 2378, 2379, 2388, 2390, 2395, 2396, 2398, 2400, 2404, 2406, 2408, 2409, 2410, 2412, 2413, 2420, 2421, 2423, 2425, 2426, 2429, 2435, 2437, 2440, 2441, 2442, 2444, 2445, 2446, 2448, 2457, 2461, 2463, 2464, 2465, 2469, 2472, 2475, 2479, 2481, 2482, 2488, 2491, 2495, 2496, 2498, 2499, 2511, 2512, 2515, 2516, 2518, 2521, 2523, 2526, 2528, 2529, 2530, 2532, 2538, 2539, 2540, 2541, 2545, 2546, 2547, 2548, 2549, 2551, 2552, 2556, 2559, 2562, 2571, 2574, 2575, 2577, 2586, 2587, 2589, 2592, 2593, 2594, 2595, 2597, 2602, 2606, 2607, 2608, 2613, 2616, 2619, 2620, 2621, 2622, 2623, 2624, 2625, 2626, 2628, 2629, 2633, 2635, 2636, 2638, 2642, 2644, 2645, 2652, 2653, 2654, 2657, 2659, 2663, 2664, 2665, 2666, 2667, 2670, 2671, 2672, 2675, 2676, 2678, 2682, 2686, 2687, 2689, 2691, 2692, 2694, 2697, 2701, 2702, 2703, 2707, 2708, 2713, 2714, 2715, 2716, 2717, 2718, 2720, 2726, 2730, 2731, 2732, 2734, 2735, 2737, 2739, 2740, 2742, 2744, 2746, 2747, 2749, 2751, 2754, 2756, 2760, 2761, 2762, 2764, 2766, 2767, 2769, 2772, 2775, 2778, 2779, 2781, 2788, 2791, 2792, 2793, 2796, 2798, 2801, 2803, 2805, 2807, 2810, 2811, 2814, 2815, 2816, 2820, 2821, 2823, 2824, 2831, 2833, 2837, 2841, 2843, 2844, 2845, 2846, 2851, 2857, 2858, 2860, 2861, 2863, 2864, 2865, 2870, 2871, 2874, 2877, 2878, 2879, 2880, 2882, 2884, 2885, 2892, 2895, 2897, 2898, 2899, 2902, 2904, 2905, 2912, 2916, 2919, 2921, 2923, 2926, 2928, 2933, 2935, 2937, 2942, 2944, 2949, 2960, 2965, 2967, 2968, 2969, 2973, 2975, 2976, 2978, 2979, 2980, 2981, 2982, 2985, 2991, 2998]} |