vera-8
/

mT5-large-trimmed_deplain-apa

Text2Text Generation

Inference Endpoints

Model card Files Files and versions Community

mT5-large-trimmed_deplain-apa / README.md

vera-8's picture

Update README.md

9dfd49d verified 2 months ago

|

raw history blame contribute delete

No virus

1.02 kB

	---
	datasets:
	- DEplain/DEplain-APA-sent
	language:
	- de
	metrics:
	- sari
	- bleu
	- bertscore
	library_name: transformers
	base_model: google/mT5-large
	pipeline_tag: text2text-generation
	---
	# Model Card for mT5-large-trimmed_deplain-apa

	Finetuned mT5-Model for German sentence-level text-simplification.

	## Model Details

	### Model Description

	- Model type: Encoder-Decoder-Transformer
	- Language(s) (NLP): German
	- Finetuned from model: google/mT5-large
	- Task: Text-Simplification

	## Training Details

	### Training Data

	[DEplain/DEplain-APA-sent](https://huggingface.co/datasets/DEplain/DEplain-APA-sent) \
	Stodden et al. (2023): [arXiv:2305.18939](arXiv:2305.18939)

	### Training Procedure

	Parameter-efficient Fine-Tuning with LoRA. Vocabulary trimmed to 32.000 most frequent tokens for German.

	#### Training Hyperparameters
	* Batch Size: 16
	* Epochs: 1
	* Learning Rate: 0,001
	* Optimizer: Adafactor

	#### LoRA Hyperparameters
	* R: 32
	* Alpha: 64
	* Dropout:
	* Target modules: all linear layers