Edit model card

collapse_gemma-2-2b_hs2_accumulate_iter15_sftsd2

This model is a fine-tuned version of google/gemma-2-2b on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 1.1058
  • Num Input Tokens Seen: 77751200

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 8e-06
  • train_batch_size: 8
  • eval_batch_size: 16
  • seed: 2
  • gradient_accumulation_steps: 16
  • total_train_batch_size: 128
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: constant_with_warmup
  • lr_scheduler_warmup_ratio: 0.05
  • num_epochs: 1

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
No log 0 0 1.3909 0
1.6135 0.0035 5 1.3904 273088
1.5412 0.0070 10 1.3792 547008
1.5377 0.0104 15 1.3492 818848
1.5151 0.0139 20 1.3057 1086200
1.3945 0.0174 25 1.2624 1352424
1.3142 0.0209 30 1.2351 1619992
1.3201 0.0243 35 1.2011 1894408
1.1366 0.0278 40 1.1945 2167752
1.0737 0.0313 45 1.2107 2440472
0.9206 0.0348 50 1.2379 2711296
0.7903 0.0382 55 1.2526 2985712
0.6602 0.0417 60 1.2641 3252368
0.5131 0.0452 65 1.3098 3524896
0.5016 0.0487 70 1.2977 3791864
0.4995 0.0521 75 1.2745 4058632
0.504 0.0556 80 1.2460 4334456
0.347 0.0591 85 1.2418 4612320
0.3563 0.0626 90 1.2297 4880024
0.3769 0.0660 95 1.2228 5148160
0.3677 0.0695 100 1.2294 5420880
0.2658 0.0730 105 1.2042 5680952
0.2435 0.0765 110 1.2335 5951504
0.23 0.0800 115 1.2097 6219312
0.1793 0.0834 120 1.2166 6494688
0.2637 0.0869 125 1.2066 6768384
0.3246 0.0904 130 1.2060 7034744
0.3361 0.0939 135 1.2064 7305656
0.2189 0.0973 140 1.1947 7573024
0.2668 0.1008 145 1.2011 7832560
0.2575 0.1043 150 1.1909 8098896
0.2022 0.1078 155 1.2043 8371328
0.201 0.1112 160 1.1953 8639704
0.3133 0.1147 165 1.1975 8904696
0.2557 0.1182 170 1.1890 9177080
0.1684 0.1217 175 1.1906 9448704
0.2389 0.1251 180 1.1921 9720568
0.2362 0.1286 185 1.1835 9992024
0.1524 0.1321 190 1.1938 10271304
0.1967 0.1356 195 1.1872 10538632
0.193 0.1390 200 1.1872 10806736
0.2353 0.1425 205 1.1898 11076064
0.1659 0.1460 210 1.1803 11340520
0.2268 0.1495 215 1.1844 11613392
0.1548 0.1530 220 1.1833 11888784
0.1995 0.1564 225 1.1790 12159936
0.2396 0.1599 230 1.1742 12433168
0.1391 0.1634 235 1.1782 12700728
0.1482 0.1669 240 1.1780 12968104
0.2416 0.1703 245 1.1722 13235896
0.1886 0.1738 250 1.1749 13506384
0.1518 0.1773 255 1.1741 13773488
0.1988 0.1808 260 1.1721 14039992
0.1815 0.1842 265 1.1709 14315248
0.1993 0.1877 270 1.1708 14580520
0.1906 0.1912 275 1.1693 14848384
0.1259 0.1947 280 1.1694 15116976
0.1309 0.1981 285 1.1651 15391376
0.1985 0.2016 290 1.1697 15656080
0.1311 0.2051 295 1.1657 15923424
0.1166 0.2086 300 1.1626 16199536
0.1303 0.2120 305 1.1723 16468736
0.1885 0.2155 310 1.1667 16744176
0.1559 0.2190 315 1.1612 17010888
0.191 0.2225 320 1.1617 17286544
0.1791 0.2259 325 1.1650 17555576
0.185 0.2294 330 1.1559 17832296
0.1871 0.2329 335 1.1632 18100536
0.1781 0.2364 340 1.1682 18371536
0.2154 0.2399 345 1.1583 18640424
0.2011 0.2433 350 1.1599 18905080
0.132 0.2468 355 1.1574 19173752
0.1261 0.2503 360 1.1573 19444816
0.1617 0.2538 365 1.1599 19717032
0.1491 0.2572 370 1.1538 19986464
0.1064 0.2607 375 1.1566 20256432
0.1451 0.2642 380 1.1547 20526344
0.1581 0.2677 385 1.1572 20791096
0.2388 0.2711 390 1.1543 21061056
0.1812 0.2746 395 1.1552 21335016
0.1662 0.2781 400 1.1553 21612008
0.1394 0.2816 405 1.1514 21879448
0.1159 0.2850 410 1.1555 22147112
0.1405 0.2885 415 1.1508 22422176
0.1945 0.2920 420 1.1509 22694696
0.1085 0.2955 425 1.1539 22961648
0.1886 0.2989 430 1.1524 23229304
0.1098 0.3024 435 1.1549 23489320
0.1222 0.3059 440 1.1519 23757616
0.114 0.3094 445 1.1522 24028752
0.1883 0.3129 450 1.1485 24304496
0.198 0.3163 455 1.1513 24574808
0.1902 0.3198 460 1.1497 24845496
0.1265 0.3233 465 1.1471 25117120
0.1926 0.3268 470 1.1478 25380208
0.1215 0.3302 475 1.1480 25650792
0.1819 0.3337 480 1.1425 25920016
0.1342 0.3372 485 1.1445 26189224
0.1921 0.3407 490 1.1486 26448784
0.1486 0.3441 495 1.1433 26715664
0.1905 0.3476 500 1.1430 26981664
0.1523 0.3511 505 1.1437 27251744
0.1849 0.3546 510 1.1444 27515648
0.1908 0.3580 515 1.1438 27783064
0.1493 0.3615 520 1.1418 28052832
0.1195 0.3650 525 1.1439 28319160
0.1529 0.3685 530 1.1447 28589648
0.1214 0.3719 535 1.1405 28858456
0.1445 0.3754 540 1.1412 29127696
0.1319 0.3789 545 1.1429 29395800
0.1764 0.3824 550 1.1434 29667864
0.1352 0.3859 555 1.1386 29943936
0.1525 0.3893 560 1.1369 30209760
0.2031 0.3928 565 1.1408 30480952
0.1333 0.3963 570 1.1365 30758336
0.2151 0.3998 575 1.1396 31032600
0.1737 0.4032 580 1.1381 31309440
0.1387 0.4067 585 1.1359 31580744
0.1608 0.4102 590 1.1357 31849168
0.1515 0.4137 595 1.1376 32123656
0.1585 0.4171 600 1.1392 32389912
0.2441 0.4206 605 1.1344 32657384
0.1301 0.4241 610 1.1347 32927736
0.1795 0.4276 615 1.1351 33202136
0.1494 0.4310 620 1.1391 33471216
0.1834 0.4345 625 1.1353 33747872
0.1818 0.4380 630 1.1350 34024936
0.1227 0.4415 635 1.1350 34291168
0.1444 0.4449 640 1.1344 34555352
0.1154 0.4484 645 1.1322 34834192
0.145 0.4519 650 1.1321 35114568
0.1452 0.4554 655 1.1339 35382160
0.1935 0.4589 660 1.1321 35654824
0.105 0.4623 665 1.1298 35927472
0.1381 0.4658 670 1.1325 36200280
0.1151 0.4693 675 1.1322 36470408
0.1594 0.4728 680 1.1306 36738112
0.1737 0.4762 685 1.1290 37013304
0.1882 0.4797 690 1.1290 37283784
0.2225 0.4832 695 1.1285 37547960
0.2086 0.4867 700 1.1290 37820464
0.0948 0.4901 705 1.1290 38091912
0.1392 0.4936 710 1.1279 38360520
0.1924 0.4971 715 1.1287 38639880
0.2055 0.5006 720 1.1286 38903688
0.1897 0.5040 725 1.1275 39174432
0.1344 0.5075 730 1.1304 39444544
0.1845 0.5110 735 1.1309 39711872
0.1776 0.5145 740 1.1270 39978152
0.147 0.5179 745 1.1303 40246232
0.0937 0.5214 750 1.1317 40515136
0.1647 0.5249 755 1.1280 40787976
0.1347 0.5284 760 1.1279 41053864
0.1343 0.5319 765 1.1313 41320032
0.1523 0.5353 770 1.1274 41586552
0.1364 0.5388 775 1.1263 41862576
0.1357 0.5423 780 1.1301 42131120
0.1048 0.5458 785 1.1292 42399920
0.207 0.5492 790 1.1275 42674784
0.1253 0.5527 795 1.1285 42944848
0.1468 0.5562 800 1.1278 43209536
0.185 0.5597 805 1.1262 43487344
0.1816 0.5631 810 1.1253 43757320
0.0963 0.5666 815 1.1259 44025048
0.1364 0.5701 820 1.1278 44298440
0.0972 0.5736 825 1.1264 44568744
0.1513 0.5770 830 1.1246 44834632
0.141 0.5805 835 1.1259 45107960
0.3042 0.5840 840 1.1265 45377088
0.1588 0.5875 845 1.1249 45638728
0.1191 0.5909 850 1.1237 45911320
0.1452 0.5944 855 1.1251 46185176
0.1576 0.5979 860 1.1254 46461136
0.138 0.6014 865 1.1227 46731656
0.1205 0.6048 870 1.1250 47009552
0.1165 0.6083 875 1.1251 47282896
0.1053 0.6118 880 1.1236 47552552
0.1635 0.6153 885 1.1241 47830280
0.1937 0.6188 890 1.1251 48106480
0.1295 0.6222 895 1.1237 48362512
0.1385 0.6257 900 1.1254 48633288
0.1218 0.6292 905 1.1275 48908368
0.1815 0.6327 910 1.1258 49183288
0.1609 0.6361 915 1.1211 49455488
0.1322 0.6396 920 1.1237 49731128
0.1361 0.6431 925 1.1229 50002192
0.1667 0.6466 930 1.1208 50271760
0.153 0.6500 935 1.1203 50541640
0.1195 0.6535 940 1.1244 50806752
0.1977 0.6570 945 1.1217 51080472
0.1132 0.6605 950 1.1184 51340736
0.1466 0.6639 955 1.1212 51609592
0.1578 0.6674 960 1.1226 51880232
0.1628 0.6709 965 1.1215 52158968
0.1481 0.6744 970 1.1198 52433560
0.1459 0.6778 975 1.1180 52700464
0.1318 0.6813 980 1.1183 52975800
0.1683 0.6848 985 1.1236 53246208
0.1394 0.6883 990 1.1236 53516808
0.0899 0.6918 995 1.1195 53791056
0.0928 0.6952 1000 1.1199 54061680
0.1154 0.6987 1005 1.1206 54331424
0.1637 0.7022 1010 1.1224 54600520
0.1342 0.7057 1015 1.1184 54872008
0.1771 0.7091 1020 1.1188 55144160
0.1495 0.7126 1025 1.1207 55416392
0.1584 0.7161 1030 1.1192 55687472
0.208 0.7196 1035 1.1188 55955032
0.1321 0.7230 1040 1.1175 56223008
0.1719 0.7265 1045 1.1177 56488664
0.1529 0.7300 1050 1.1186 56763392
0.1293 0.7335 1055 1.1192 57029072
0.1536 0.7369 1060 1.1200 57297616
0.1257 0.7404 1065 1.1185 57572632
0.1327 0.7439 1070 1.1186 57847752
0.1537 0.7474 1075 1.1202 58121184
0.1426 0.7508 1080 1.1187 58388720
0.1945 0.7543 1085 1.1150 58657744
0.186 0.7578 1090 1.1120 58922856
0.1334 0.7613 1095 1.1138 59189624
0.1454 0.7648 1100 1.1134 59464816
0.0901 0.7682 1105 1.1122 59739424
0.1265 0.7717 1110 1.1142 60012496
0.1555 0.7752 1115 1.1136 60277000
0.1398 0.7787 1120 1.1113 60549048
0.1168 0.7821 1125 1.1141 60821128
0.0972 0.7856 1130 1.1172 61087376
0.1254 0.7891 1135 1.1156 61363984
0.1017 0.7926 1140 1.1127 61633688
0.1606 0.7960 1145 1.1154 61903920
0.0991 0.7995 1150 1.1154 62164784
0.133 0.8030 1155 1.1145 62442432
0.102 0.8065 1160 1.1153 62718064
0.187 0.8099 1165 1.1133 62986848
0.0869 0.8134 1170 1.1122 63257168
0.1673 0.8169 1175 1.1139 63524680
0.1466 0.8204 1180 1.1128 63784232
0.1411 0.8238 1185 1.1122 64053936
0.1417 0.8273 1190 1.1124 64329512
0.0968 0.8308 1195 1.1141 64605872
0.0996 0.8343 1200 1.1122 64877456
0.1313 0.8378 1205 1.1119 65157280
0.1172 0.8412 1210 1.1130 65428736
0.1413 0.8447 1215 1.1131 65702264
0.0729 0.8482 1220 1.1108 65970072
0.1623 0.8517 1225 1.1101 66233120
0.107 0.8551 1230 1.1115 66502984
0.1949 0.8586 1235 1.1123 66771520
0.1692 0.8621 1240 1.1104 67039392
0.1497 0.8656 1245 1.1101 67314024
0.1963 0.8690 1250 1.1119 67586048
0.0689 0.8725 1255 1.1121 67857456
0.158 0.8760 1260 1.1119 68129480
0.2317 0.8795 1265 1.1114 68405584
0.1461 0.8829 1270 1.1093 68674456
0.1524 0.8864 1275 1.1083 68949344
0.1185 0.8899 1280 1.1106 69215544
0.2164 0.8934 1285 1.1110 69486256
0.1323 0.8968 1290 1.1092 69759368
0.1452 0.9003 1295 1.1080 70037496
0.1917 0.9038 1300 1.1087 70303576
0.1557 0.9073 1305 1.1100 70572120
0.1104 0.9107 1310 1.1089 70839640
0.1086 0.9142 1315 1.1098 71108512
0.1181 0.9177 1320 1.1095 71373744
0.1538 0.9212 1325 1.1085 71642904
0.2224 0.9247 1330 1.1080 71921520
0.1036 0.9281 1335 1.1070 72192008
0.1099 0.9316 1340 1.1093 72465280
0.1232 0.9351 1345 1.1084 72733352
0.1495 0.9386 1350 1.1086 72998856
0.0992 0.9420 1355 1.1075 73258264
0.1569 0.9455 1360 1.1081 73536992
0.0792 0.9490 1365 1.1083 73805656
0.224 0.9525 1370 1.1117 74069776
0.1584 0.9559 1375 1.1108 74345440
0.1245 0.9594 1380 1.1064 74614344
0.1313 0.9629 1385 1.1074 74880600
0.1608 0.9664 1390 1.1105 75151040
0.101 0.9698 1395 1.1099 75418224
0.167 0.9733 1400 1.1087 75685664
0.1695 0.9768 1405 1.1095 75953952
0.1481 0.9803 1410 1.1086 76229768
0.1024 0.9837 1415 1.1079 76501920
0.1251 0.9872 1420 1.1083 76769800
0.1459 0.9907 1425 1.1069 77045080
0.1888 0.9942 1430 1.1060 77317760
0.1713 0.9977 1435 1.1060 77584576

Framework versions

  • Transformers 4.44.0
  • Pytorch 2.4.0+cu121
  • Datasets 2.20.0
  • Tokenizers 0.19.1
Downloads last month
4
Safetensors
Model size
2.61B params
Tensor type
BF16
·
Inference API
Unable to determine this model's library. Check the docs .

Model tree for RylanSchaeffer/collapse_gemma-2-2b_hs2_accumulate_iter15_sftsd2

Base model

google/gemma-2-2b
Finetuned
(446)
this model