Spaces:

arithescientist
/

lincolnlegal

Sleeping

Ari commited on Sep 5

Commit

82e6a9a

•

1 Parent(s): ec8c26c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,8 @@ from fpdf import FPDF
 from gtts import gTTS
 from pdfminer.high_level import extract_text
 from docx import Document
 nltk.download('punkt')
@@ -13,24 +15,24 @@ nltk.download('punkt')
 tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
 model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
-# Function to convert DOCX to PDF with UTF-8 support
 def docx_to_pdf(docx_file, output_pdf="converted_doc.pdf"):
     doc = Document(docx_file)
     full_text = []
     for para in doc.paragraphs:
         full_text.append(para.text)
-    # Create a PDF and write the extracted text
-    pdf = FPDF()
-    pdf.add_page()
-    # Set a UTF-8 compatible font (DejaVuSans)
-    pdf.add_font('DejaVu', '', 'DejaVuSans.ttf', uni=True)
-    pdf.set_font("DejaVu", size=12)
-    # Write the content, ensuring UTF-8 encoding is supported
-    pdf.multi_cell(190, 10, txt="\n".join(full_text), align='C')
-    pdf.output(output_pdf)
     return output_pdf
 # Main processing function

 from gtts import gTTS
 from pdfminer.high_level import extract_text
 from docx import Document
+from reportlab.lib.pagesizes import letter
+from reportlab.pdfgen import canvas
 nltk.download('punkt')
 tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
 model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
+# Function to convert DOCX to PDF using reportlab (UTF-8 compatible)
 def docx_to_pdf(docx_file, output_pdf="converted_doc.pdf"):
     doc = Document(docx_file)
     full_text = []
     for para in doc.paragraphs:
         full_text.append(para.text)
+    # Create a PDF and write the extracted text using reportlab
+    pdf = canvas.Canvas(output_pdf, pagesize=letter)
+    pdf.setFont("Helvetica", 12)
+    # Write text line by line
+    text = pdf.beginText(40, 750)  # Start position on the page
+    for line in full_text:
+        text.textLine(line)
+    pdf.drawText(text)
+    pdf.save()
     return output_pdf
 # Main processing function