Spaces:

arithescientist
/

lincolnlegal

Sleeping

App Files Files Community

arithescientist commited on Jun 2, 2022

Commit

aad84a4

1 Parent(s): a39d635

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -20

app.py CHANGED Viewed

@@ -23,25 +23,33 @@ from pdfminer.high_level import extract_text
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 nltk.download('punkt')
-def pdf_to_text(PDF, Min):
-   model_name = 'nlpaueb/legal-bert-base-uncased'
-   # The setup of huggingface.co
-   file_obj = PDF
-   #n = int(Percent.replace('%', ''))
-   tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
-   model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
-   text = extract_text(file_obj.name)
-   inputs = tokenizer([text], max_length=1024, return_tensors="pt")
-   Min = int(Min)
-   # Generate Summary
-   summary_ids = model.generate(inputs["input_ids"], num_beams=2,min_length=Min, max_length=Min+1000)
-   output_text  = tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
    #output_text= bert_legal_model(text,  min_length = 8, ratio = 0.05)
@@ -62,12 +70,10 @@ def pdf_to_text(PDF, Min):
    return  "legal.wav", output_text, "legal.pdf"
- #   path = folder_name
   #  return path
     #pageObject.extractText()
 iface = gr.Interface(fn = pdf_to_text,
-   inputs =["file", "text"], outputs=["audio","text", "file"] )
 if __name__ == "__main__":
     iface.launch(share=True)

 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 nltk.download('punkt')
+model_name = 'nlpaueb/legal-bert-base-uncased'
+tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
+model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
+def pdf_to_text(text, PDF):
+   Min = int(20)
+   if text == "":
+      # The setup of huggingface.co
+      file_obj = PDF
+      #n = int(Percent.replace('%', ''))
+      text = extract_text(file_obj.name)
+      inputs = tokenizer([text], max_length=1024, return_tensors="pt")
+      Min = int(Min)
+      # Generate Summary
+      summary_ids = model.generate(inputs["input_ids"], num_beams=2,min_length=Min, max_length=Min+1000)
+      output_text  = tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+   else:
+      inputs = tokenizer([text], max_length=1024, return_tensors="pt")
+      # Generate Summary
+      summary_ids = model.generate(inputs["input_ids"], num_beams=2,min_length=Min, max_length=Min+1000)
+      output_text  = tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
    #output_text= bert_legal_model(text,  min_length = 8, ratio = 0.05)
    return  "legal.wav", output_text, "legal.pdf"
   #  return path
     #pageObject.extractText()
 iface = gr.Interface(fn = pdf_to_text,
+   inputs =["text", "file", "text"], outputs=["audio","text", "file"] )
 if __name__ == "__main__":
     iface.launch(share=True)