Spaces:

arithescientist
/

lincolnlegal

Sleeping

App Files Files Community

Ari commited on Sep 5, 2024

Commit

94bf427

verified ·

1 Parent(s): a52e8bf

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -48

app.py CHANGED Viewed

@@ -1,63 +1,65 @@
-import os
 import gradio as gr
-from docx import Document
 from gtts import gTTS
-from fpdf import FPDF  # Pure Python library for PDF generation
-from pdfminer.high_level import extract_text as extract_pdf_text
-# Function to extract text from PDF
-def extract_text_from_pdf(pdf_file):
-    return extract_pdf_text(pdf_file.name)
-# Function to extract text from DOCX
-def extract_text_from_docx(docx_file):
-    doc = Document(docx_file.name)
-    full_text = []
-    for para in doc.paragraphs:
-        full_text.append(para.text)
-    return '\n'.join(full_text)
-# Function to generate PDF using FPDF
-def generate_pdf(text, output_path="output.pdf"):
-    pdf = FPDF()
-    pdf.add_page()
-    pdf.set_font("Arial", size=12)
-    pdf.multi_cell(0, 10, text)
-    pdf.output(output_path)
-# Function to process files (PDF or DOCX), convert to text, audio, and PDF
-def process_file(file):
     try:
-        # Check file extension
-        file_extension = os.path.splitext(file.name)[1].lower()
-        # Extract text based on file type
-        if file_extension == '.pdf':
-            extracted_text = extract_text_from_pdf(file)
-        elif file_extension in ['.doc', '.docx']:
-            extracted_text = extract_text_from_docx(file)
-        else:
-            return None, "Unsupported file type", None
-        # Generate the PDF using FPDF
-        pdf_output_path = "document_output.pdf"
-        generate_pdf(extracted_text, pdf_output_path)
-        # Convert the text to audio using gTTS
-        tts = gTTS(text=extracted_text, lang='en', slow=False)
-        audio_output_path = "document_audio.wav"
         tts.save(audio_output_path)
-        return audio_output_path, extracted_text, pdf_output_path
     except Exception as e:
         return None, f"An error occurred: {str(e)}", None
-# Gradio interface for file upload (PDF or DOC/DOCX)
 iface = gr.Interface(
-    fn=process_file,
-    inputs=gr.File(label="Upload PDF or DOC/DOCX File"),
-    outputs=[gr.Audio(label="Generated Audio"), gr.Textbox(label="Extracted Text"), gr.File(label="Generated PDF")]
 )
 if __name__ == "__main__":

 import gradio as gr
+import os
+import nltk
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from fpdf import FPDF
 from gtts import gTTS
+from pdfminer.high_level import extract_text
+nltk.download('punkt')
+# Load the models and tokenizers once, not every time the function is called
+tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
+model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
+# Function to split the text into smaller chunks
+def split_text(text, chunk_size=1024):
+    words = text.split()
+    for i in range(0, len(words), chunk_size):
+        yield ' '.join(words[i:i + chunk_size])
+# Main processing function
+def pdf_to_text(text, PDF, min_length=20):
     try:
+        # Extract text from PDF if no input text provided
+        if text == "":
+            text = extract_text(PDF.name)
+        # Split the text into chunks for summarization
+        summarized_text = ""
+        for chunk in split_text(text):
+            # Tokenize chunked text
+            inputs = tokenizer([chunk], max_length=1024, return_tensors="pt")
+            min_length = int(min_length)
+            # Generate summary for each chunk
+            summary_ids = model.generate(inputs["input_ids"], num_beams=2, min_length=min_length, max_length=min_length+1000)
+            output_text = tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)[0]
+            summarized_text += output_text + " "  # Append each chunk summary
+        # Save summarized text to PDF
+        pdf = FPDF()
+        pdf.add_page()
+        pdf.set_font("Times", size=12)
+        pdf.multi_cell(190, 10, txt=summarized_text, align='C')
+        pdf_output_path = "legal.pdf"
+        pdf.output(pdf_output_path)
+        # Convert summarized text to audio
+        audio_output_path = "legal.wav"
+        tts = gTTS(text=summarized_text, lang='en', slow=False)
         tts.save(audio_output_path)
+        return audio_output_path, summarized_text, pdf_output_path
     except Exception as e:
         return None, f"An error occurred: {str(e)}", None
+# Gradio interface
 iface = gr.Interface(
+    fn=pdf_to_text,
+    inputs=[gr.Textbox(label="Input Text"), gr.File(label="Upload PDF"), gr.Slider(minimum=10, maximum=100, step=10, value=20, label="Summary Minimum Length")],
+    outputs=[gr.Audio(label="Generated Audio"), gr.Textbox(label="Generated Summary"), gr.File(label="Summary PDF")]
 )
 if __name__ == "__main__":