Add TF weights
Model converted by the transformers
' pt_to_tf
CLI. All converted model outputs and hidden layers were validated against its Pytorch counterpart.
Maximum crossload output difference=1.710e-03; Maximum crossload hidden layer difference=1.713e-01;
Maximum conversion output difference=1.710e-03; Maximum conversion hidden layer difference=1.713e-01;
CAUTION: The maximum admissible error was manually increased to 0.2!
List of maximum output differences above the threshold (1e-10):
past_key_values[0][0]: 9.537e-07
past_key_values[0][1]: 7.153e-07
past_key_values[0][2]: 2.680e-04
past_key_values[0][3]: 2.173e-04
past_key_values[1][0]: 1.132e-06
past_key_values[1][1]: 6.557e-07
past_key_values[1][2]: 4.234e-04
past_key_values[1][3]: 1.726e-04
past_key_values[2][0]: 4.292e-06
past_key_values[2][1]: 1.252e-06
past_key_values[2][2]: 2.744e-04
past_key_values[2][3]: 2.023e-04
past_key_values[3][0]: 2.384e-06
past_key_values[3][1]: 1.788e-06
past_key_values[3][2]: 3.088e-04
past_key_values[3][3]: 1.233e-04
past_key_values[4][0]: 2.861e-06
past_key_values[4][1]: 2.146e-06
past_key_values[4][2]: 2.913e-04
past_key_values[4][3]: 1.480e-04
past_key_values[5][0]: 3.815e-06
past_key_values[5][1]: 6.035e-07
past_key_values[5][2]: 2.677e-04
past_key_values[5][3]: 1.507e-04
past_key_values[6][0]: 2.742e-06
past_key_values[6][1]: 3.614e-07
past_key_values[6][2]: 2.542e-04
past_key_values[6][3]: 1.314e-04
past_key_values[7][0]: 2.384e-06
past_key_values[7][1]: 5.104e-07
past_key_values[7][2]: 3.142e-04
past_key_values[7][3]: 1.254e-04
past_key_values[8][0]: 1.788e-06
past_key_values[8][1]: 4.359e-07
past_key_values[8][2]: 3.145e-04
past_key_values[8][3]: 1.477e-04
past_key_values[9][0]: 1.788e-06
past_key_values[9][1]: 4.899e-07
past_key_values[9][2]: 3.660e-04
past_key_values[9][3]: 2.216e-04
past_key_values[10][0]: 2.027e-06
past_key_values[10][1]: 7.749e-07
past_key_values[10][2]: 3.755e-04
past_key_values[10][3]: 1.364e-04
past_key_values[11][0]: 2.980e-06
past_key_values[11][1]: 5.662e-07
past_key_values[11][2]: 3.808e-04
past_key_values[11][3]: 1.668e-04
past_key_values[12][0]: 1.967e-06
past_key_values[12][1]: 5.458e-07
past_key_values[12][2]: 3.281e-04
past_key_values[12][3]: 1.447e-04
past_key_values[13][0]: 2.742e-06
past_key_values[13][1]: 4.582e-07
past_key_values[13][2]: 3.116e-04
past_key_values[13][3]: 1.824e-04
past_key_values[14][0]: 1.907e-06
past_key_values[14][1]: 5.700e-07
past_key_values[14][2]: 3.548e-04
past_key_values[14][3]: 2.106e-04
past_key_values[15][0]: 2.742e-06
past_key_values[15][1]: 5.886e-07
past_key_values[15][2]: 3.104e-04
past_key_values[15][3]: 1.752e-04
past_key_values[16][0]: 2.027e-06
past_key_values[16][1]: 6.547e-07
past_key_values[16][2]: 3.250e-04
past_key_values[16][3]: 2.570e-04
past_key_values[17][0]: 2.384e-06
past_key_values[17][1]: 5.774e-07
past_key_values[17][2]: 4.911e-04
past_key_values[17][3]: 4.827e-04
past_key_values[18][0]: 2.146e-06
past_key_values[18][1]: 1.132e-06
past_key_values[18][2]: 3.638e-04
past_key_values[18][3]: 2.490e-04
past_key_values[19][0]: 2.742e-06
past_key_values[19][1]: 7.153e-07
past_key_values[19][2]: 2.813e-04
past_key_values[19][3]: 1.984e-04
past_key_values[20][0]: 2.027e-06
past_key_values[20][1]: 1.073e-06
past_key_values[20][2]: 4.678e-04
past_key_values[20][3]: 1.605e-04
past_key_values[21][0]: 1.669e-06
past_key_values[21][1]: 7.600e-07
past_key_values[21][2]: 5.121e-04
past_key_values[21][3]: 1.725e-04
past_key_values[22][0]: 1.669e-06
past_key_values[22][1]: 9.537e-07
past_key_values[22][2]: 5.331e-04
past_key_values[22][3]: 3.068e-04
past_key_values[23][0]: 2.265e-06
past_key_values[23][1]: 1.073e-06
past_key_values[23][2]: 4.845e-04
past_key_values[23][3]: 3.991e-04
List of maximum hidden layer differences above the threshold (1e-10):
last_hidden_state: 3.662e-04
decoder_hidden_states[1]: 4.768e-06
decoder_hidden_states[2]: 6.676e-06
decoder_hidden_states[3]: 1.526e-05
decoder_hidden_states[4]: 1.431e-05
decoder_hidden_states[5]: 2.098e-05
decoder_hidden_states[6]: 1.831e-04
decoder_hidden_states[7]: 1.678e-04
decoder_hidden_states[8]: 1.373e-04
decoder_hidden_states[9]: 1.373e-04
decoder_hidden_states[10]: 1.221e-04
decoder_hidden_states[11]: 1.373e-04
decoder_hidden_states[12]: 1.221e-04
decoder_hidden_states[13]: 1.221e-04
decoder_hidden_states[14]: 1.221e-04
decoder_hidden_states[15]: 1.221e-04
decoder_hidden_states[16]: 1.221e-04
decoder_hidden_states[17]: 1.221e-04
decoder_hidden_states[18]: 1.221e-04
decoder_hidden_states[19]: 1.221e-04
decoder_hidden_states[20]: 1.373e-04
decoder_hidden_states[21]: 1.373e-04
decoder_hidden_states[22]: 1.373e-04
decoder_hidden_states[23]: 1.678e-04
decoder_hidden_states[24]: 3.662e-04
encoder_last_hidden_state: 1.556e-03
encoder_hidden_states[0]: 1.860e-05
encoder_hidden_states[1]: 2.146e-05
encoder_hidden_states[2]: 2.193e-05
encoder_hidden_states[3]: 2.503e-05
encoder_hidden_states[4]: 2.873e-05
encoder_hidden_states[5]: 3.278e-05
encoder_hidden_states[6]: 3.517e-05
encoder_hidden_states[7]: 3.517e-05
encoder_hidden_states[8]: 3.719e-05
encoder_hidden_states[9]: 3.815e-05
encoder_hidden_states[10]: 5.198e-05
encoder_hidden_states[11]: 5.579e-05
encoder_hidden_states[12]: 1.022e-03
encoder_hidden_states[13]: 1.053e-03
encoder_hidden_states[14]: 1.083e-03
encoder_hidden_states[15]: 1.244e-03
encoder_hidden_states[16]: 1.343e-03
encoder_hidden_states[17]: 1.419e-03
encoder_hidden_states[18]: 1.495e-03
encoder_hidden_states[19]: 1.503e-03
encoder_hidden_states[20]: 1.518e-03
encoder_hidden_states[21]: 1.518e-03
encoder_hidden_states[22]: 1.495e-03
encoder_hidden_states[23]: 1.190e-01
encoder_hidden_states[24]: 1.556e-03