Spaces:

teixeiramg
/

Teste

Sleeping

teixeiramg commited on Nov 5, 2024

Commit

ed6732f

verified ·

1 Parent(s): bbcd85b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -45,9 +45,21 @@ def answer_question(question, max_length=200, temperature=0.7, top_k=50, top_p=0
     try:
         if not pdf_content:
             return "Por favor, carregue um PDF primeiro.", ""
-        prompt = f"Conteúdo do PDF: {pdf_content}\nPergunta: {question}\nResposta em português:"
-        print(f"Prompt: {prompt}")  # Adicionar log para depuração
         inputs = tokenizer(prompt, return_tensors="pt")
         outputs = model.generate(
             inputs.input_ids,
             max_length=max_length,
@@ -56,12 +68,13 @@ def answer_question(question, max_length=200, temperature=0.7, top_k=50, top_p=0
             top_p=top_p,
             num_return_sequences=1
         )
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return response, prompt
     except Exception as e:
         print(f"Erro ao gerar resposta: {e}")
         print(traceback.format_exc())
-        return "Erro ao gerar resposta.", prompt
 # Interface do Gradio para carregar PDF e fazer perguntas
 pdf_loader = gr.Interface(

     try:
         if not pdf_content:
             return "Por favor, carregue um PDF primeiro.", ""
+        # Limitar o tamanho do conteúdo do PDF para evitar exceder o número máximo de tokens
+        max_tokens = 1024  # O número máximo de tokens permitido para o GPT-2 é geralmente 1024
+        truncated_content = pdf_content[:max_tokens]
+        prompt = f"Conteúdo do PDF: {truncated_content}\nPergunta: {question}\nResposta em português:"
+        # Verificando o tamanho do prompt
+        print(f"Prompt gerado (tamanho {len(prompt)}):\n{prompt[:500]}...")  # Imprime os primeiros 500 caracteres para depuração
+        # Tokenizando o prompt
         inputs = tokenizer(prompt, return_tensors="pt")
+        print(f"Tokens de entrada: {inputs.input_ids.shape[1]} tokens")  # Verifica o número de tokens
+        # Gerar a resposta
         outputs = model.generate(
             inputs.input_ids,
             max_length=max_length,
             top_p=top_p,
             num_return_sequences=1
         )
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return response, prompt
     except Exception as e:
         print(f"Erro ao gerar resposta: {e}")
         print(traceback.format_exc())
+        return "Erro ao gerar resposta.", ""
 # Interface do Gradio para carregar PDF e fazer perguntas
 pdf_loader = gr.Interface(