- 000-module.3.input_layernorm
- 000-module.3.mlp.dense_4h_to_h
- 000-module.3.mlp.dense_h_to_4h
- 000-module.3.mlp
- 000-module.3.post_attention_layernorm
- 000-module.3.self_attention.attention_dropout
- 000-module.3.self_attention.dense
- 000-module.3.self_attention.query_key_value
- 000-module.3.self_attention.scale_mask_softmax
- 000-module.3.self_attention
- 000-module.3
- 000-module.4.input_layernorm
- 000-module.4.mlp.dense_4h_to_h
- 000-module.4.mlp.dense_h_to_4h
- 000-module.4.mlp
- 000-module.4.post_attention_layernorm
- 000-module.4.self_attention.attention_dropout
- 000-module.4.self_attention.dense
- 000-module.4.self_attention.query_key_value
- 000-module.4.self_attention.scale_mask_softmax
- 000-module.4.self_attention
- 000-module.4
- 000-module.tied_modules.embed.embedding_dropout
- 000-module.tied_modules.embed.position_embeddings
- 000-module.tied_modules.embed.word_embeddings
- 000-module.tied_modules.embed
- 000-module
- 028-module.17.input_layernorm
- 028-module.17.mlp.dense_4h_to_h
- 028-module.17.mlp.dense_h_to_4h
- 028-module.17.mlp
- 028-module.17.post_attention_layernorm
- 028-module.17.self_attention.attention_dropout
- 028-module.17.self_attention.dense
- 028-module.17.self_attention.query_key_value
- 028-module.17.self_attention.scale_mask_softmax
- 028-module.17.self_attention
- 028-module.17
- 028-module.18.input_layernorm
- 028-module.18.mlp.dense_4h_to_h
- 028-module.18.mlp.dense_h_to_4h
- 028-module.18.mlp
- 028-module.18.post_attention_layernorm
- 028-module.18.self_attention.attention_dropout
- 028-module.18.self_attention.dense
- 028-module.18.self_attention.query_key_value
- 028-module.18.self_attention.scale_mask_softmax
- 028-module.18.self_attention
- 028-module.18
- 028-module