Spaces:

Marroco93
/

PacmanAI-2

Sleeping

App Files Files Community

Marroco93 commited on Apr 24, 2024

Commit

3717137

1 Parent(s): 182943b

no message

Browse files

Files changed (1) hide show

main.py +10 -9

main.py CHANGED Viewed

@@ -141,7 +141,7 @@ def segment_text(text: str, max_tokens=500):  # Setting a conservative limit bel
 tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
-def robust_segment_text(text: str, max_tokens=510):  # Slightly less to ensure a buffer
     doc = nlp(text)
     segments = []
     current_segment = []
@@ -152,26 +152,24 @@ def robust_segment_text(text: str, max_tokens=510):  # Slightly less to ensure a
         sentence_tokens = tokenizer.encode(' '.join(words), add_special_tokens=False)
         if len(current_tokens) + len(sentence_tokens) > max_tokens:
-            if current_tokens:
-                segments.append(tokenizer.decode(current_tokens))
             current_segment = words
             current_tokens = sentence_tokens
         else:
             current_segment.extend(words)
             current_tokens.extend(sentence_tokens)
-    if current_tokens:
         segments.append(tokenizer.decode(current_tokens))
     return segments
-# Load a zero-shot classification model
 classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")
 def classify_segments(segments):
-    labels = ["Coverage Details", "Exclusions", "Premiums", "Claims Process",
-              "Policy Limits", "Legal and Regulatory Information", "Renewals and Cancellations",
               "Discounts and Incentives", "Duties and Responsibilities", "Contact Information"]
     classified_segments = []
     for segment in segments:
@@ -181,10 +179,14 @@ def classify_segments(segments):
 @app.post("/process_document")
 async def process_document(request: TextRequest):
     try:
-        processed_text = preprocess_text(request.text)
         segments = robust_segment_text(processed_text)
         classified_segments = classify_segments(segments)
@@ -196,7 +198,6 @@ async def process_document(request: TextRequest):
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/summarize")
 async def summarize(request: TextRequest):
     try:

 tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
+def robust_segment_text(text: str, max_tokens=510):
     doc = nlp(text)
     segments = []
     current_segment = []
         sentence_tokens = tokenizer.encode(' '.join(words), add_special_tokens=False)
         if len(current_tokens) + len(sentence_tokens) > max_tokens:
+            segments.append(tokenizer.decode(current_tokens))
             current_segment = words
             current_tokens = sentence_tokens
         else:
             current_segment.extend(words)
             current_tokens.extend(sentence_tokens)
+    if current_tokens:  # Add the last segment
         segments.append(tokenizer.decode(current_tokens))
     return segments
 classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")
 def classify_segments(segments):
+    labels = ["Coverage Details", "Exclusions", "Premiums", "Claims Process",
+              "Policy Limits", "Legal and Regulatory Information", "Renewals and Cancellations",
               "Discounts and Incentives", "Duties and Responsibilities", "Contact Information"]
     classified_segments = []
     for segment in segments:
+class TextRequest(BaseModel):
+    text: str
 @app.post("/process_document")
 async def process_document(request: TextRequest):
     try:
+        processed_text = preprocess_text(request.text)  # Ensure preprocess_text is defined
         segments = robust_segment_text(processed_text)
         classified_segments = classify_segments(segments)
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/summarize")
 async def summarize(request: TextRequest):
     try: