--- language: - pt pipeline_tag: summarization --- # Model Card para -------Upload no Hugging Face------- ## Dados Gerais - **Nome:** [lmsantos/llama3-cpqd](https://huggingface.co/lmsantos/llama3-cpqd) - **Tipo:** Languege Model, Transformer Decoder-Only - **Licença:** Language model - **Modelo base:** [unsloth/llama-3-8b-Instruct-bnb-4bit](https://huggingface.co/unsloth/llama-3-8b-Instruct-bnb-4bit) ## Resumo Este LLM é resultado de dois fine tuning para tarefas de sumarização aplicado ao modelo Llama 3, cuja arquitetura é "decoder-only". O primeiro fine tuning considerou o dataset XL-Sum [csebuetnlp/xlsum](https://huggingface.co/datasets/csebuetnlp/xlsum), o segundo foi baseado no dataset RecognaSumm [recogna-nlp/recognasumm](https://huggingface.co/datasets/recogna-nlp/recognasumm). ## Utilização Pretendida O modelo pode ser usado para tarefas de sumarização de textos em Português-BR. Não foi testado para outros idiomas. ### Uso ``` from peft import PeftModel from unsloth import FastLanguageModel import torch max_seq_length = 6144 dtype = None load_in_4bit = True if True: from unsloth import FastLanguageModel model, tokenizer = FastLanguageModel.from_pretrained( model_name = "lmsantos/llama3-cpqd", # YOUR MODEL YOU USED FOR TRAINING max_seq_length = max_seq_length, dtype = dtype, load_in_4bit = load_in_4bit, ) FastLanguageModel.for_inference(model) prompt = "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nVocê é uma AI especializada em resumir textos em português.Resuma o texto a seguir:<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n{}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n{}<|eot_id|>" inputs = tokenizer( [ prompt.format( '''O presidente disse que enquanto mundo faz guerra, pessoas estão passando fome. Lula citou mensagem do papa Francisco. "Estou de acordo. O papa tem mandado seus cardeais que estão discutindo com Zelensky e com Putin", disse Lula ao confirmar que a guerra na Ucrânia foi pauta de seu encontro com o pontífice. Segundo Lula, nunca se sabe como está a cabeça dos dois presidentes, e até o momento, todos acham que vão ganhar, o dado concreto é que vidas estão sendo ceifadas, milhares de pessoas estão morrendo. "Precisamos ter gente envolvida discutindo a paz. É preciso parar de atirar" pediu o chefe do executivo do Brasil. O petista ainda propôs uma rodada de negociações, com interlocutores que os dois lados optarem. Para ele, uma opção poderia ser a ONU (Organização das Nações Unidas). ''', # input "", # output - leave this blank for generation! ) ], return_tensors = "pt").to("cuda") from transformers import TextStreamer outputs = model.generate(**inputs, max_new_tokens = 512) tokenizer.batch_decode(outputs) print(tokenizer.decode(outputs[0])) ``` ## Idiomas Português-BR ## Dados de Treinamento Os dados de treino que foram considerados neste modelo provém, primeiramente, do dataset XL-Sum [csebuetnlp/xlsum](https://huggingface.co/datasets/csebuetnlp/xlsum) e também no dataset RecognaSumm [recogna-nlp/recognasumm](https://huggingface.co/datasets/recogna-nlp/recognasumm), ambos compostos por textos de notícias, e estruturados de modo que há o texto original e o sumário de cada notícia. Ou seja, trata-se de um conteúdo típico de aprendizagem supervisionado.