teixeiramg commited on
Commit
6144f90
·
verified ·
1 Parent(s): 257f52e

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +5 -3
app.py CHANGED
@@ -47,7 +47,7 @@ def answer_question(question, max_length=200, temperature=0.7, top_k=50, top_p=0
47
  return "Por favor, carregue um PDF primeiro.", ""
48
 
49
  # Limitar o tamanho do conteúdo do PDF para evitar exceder o número máximo de tokens
50
- max_tokens = 1024 # O número máximo de tokens permitido para o GPT-2 é geralmente 1024
51
  truncated_content = pdf_content[:max_tokens]
52
 
53
  prompt = f"Conteúdo do PDF: {truncated_content}\nPergunta: {question}\nResposta em português:"
@@ -64,12 +64,14 @@ def answer_question(question, max_length=200, temperature=0.7, top_k=50, top_p=0
64
  return "Erro: O prompt gerado ultrapassou o limite de tokens do modelo. Tente um PDF menor.", prompt
65
 
66
  # Gerar a resposta com configurações ajustadas
67
- print(f"Gerando resposta com max_new_tokens=200 e temperature={temperature}")
68
  outputs = model.generate(
69
  inputs.input_ids,
70
- max_new_tokens=200, # Gerar até 200 novos tokens (apenas a resposta)
71
  temperature=temperature, # Temperatura para controlar a criatividade
72
  num_return_sequences=1,
 
 
73
  )
74
 
75
  # Decodificando a resposta
 
47
  return "Por favor, carregue um PDF primeiro.", ""
48
 
49
  # Limitar o tamanho do conteúdo do PDF para evitar exceder o número máximo de tokens
50
+ max_tokens = 512 # Limitar o número de tokens do conteúdo do PDF para evitar sobrecarga
51
  truncated_content = pdf_content[:max_tokens]
52
 
53
  prompt = f"Conteúdo do PDF: {truncated_content}\nPergunta: {question}\nResposta em português:"
 
64
  return "Erro: O prompt gerado ultrapassou o limite de tokens do modelo. Tente um PDF menor.", prompt
65
 
66
  # Gerar a resposta com configurações ajustadas
67
+ print(f"Gerando resposta com max_new_tokens=100 e temperature={temperature}")
68
  outputs = model.generate(
69
  inputs.input_ids,
70
+ max_new_tokens=100, # Gerar até 100 novos tokens (apenas a resposta)
71
  temperature=temperature, # Temperatura para controlar a criatividade
72
  num_return_sequences=1,
73
+ no_repeat_ngram_size=2, # Evita repetições excessivas
74
+ pad_token_id=tokenizer.eos_token_id, # Adiciona um token de padding adequado
75
  )
76
 
77
  # Decodificando a resposta