Spaces:

arithescientist
/

lincolnlegal

Sleeping

Ari commited on Sep 5, 2024

Commit

b74e4b8

verified ·

1 Parent(s): 9d0e6a8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ from docx import Document
 from reportlab.lib.pagesizes import letter
 from reportlab.pdfgen import canvas
 nltk.download('punkt')
 tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
@@ -16,7 +17,7 @@ model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
 # Function to split text into chunks
 def split_text(text, max_chunk_size=1024):
-    sentences = nltk.sent_tokenize(text)
     chunks = []
     chunk = ""

 from reportlab.lib.pagesizes import letter
 from reportlab.pdfgen import canvas
+# Ensure that the punkt tokenizer is downloaded
 nltk.download('punkt')
 tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
 # Function to split text into chunks
 def split_text(text, max_chunk_size=1024):
+    sentences = nltk.sent_tokenize(text)  # Use NLTK's sentence tokenizer
     chunks = []
     chunk = ""