Spaces:

Marroco93
/

PacmanAI-2

Sleeping

App Files Files Community

Marroco93 commited on Apr 23

Commit

0f9cd45

•

1 Parent(s): 6b74d17

no message

Browse files

Files changed (1) hide show

main.py +41 -3

main.py CHANGED Viewed

@@ -108,14 +108,52 @@ def reduce_tokens(text: str):
     token_count = len(reduced_doc)
     return reduced_text, token_count
 @app.post("/summarize")
 async def summarize(request: TextRequest):
     try:
         processed_text = preprocess_text(request.text)
-        reduced_text, token_count = reduce_tokens(processed_text)
         return {
-            "reduced_text": reduced_text,
-            "token_count": token_count
         }
     except Exception as e:

     token_count = len(reduced_doc)
     return reduced_text, token_count
+def segment_text(text: str, max_length=512):
+    # Use spaCy to divide the document into sentences
+    doc = nlp(text)
+    sentences = [sent.text for sent in doc.sents]
+    # Group sentences into segments of approximately max_length tokens
+    segments = []
+    current_segment = []
+    current_length = 0
+    for sentence in sentences:
+        sentence_length = len(sentence.split())
+        if current_length + sentence_length > max_length:
+            segments.append(' '.join(current_segment))
+            current_segment = [sentence]
+            current_length = sentence_length
+        else:
+            current_segment.append(sentence)
+            current_length += sentence_length
+    if current_segment:
+        segments.append(' '.join(current_segment))
+    return segments
+classifier = pipeline("text-classification", model="distilbert-base-uncased-finetuned-sst-2-english")
+def classify_segments(segments):
+    return [classifier(segment) for segment in segments]
 @app.post("/summarize")
 async def summarize(request: TextRequest):
     try:
+        # Preprocess and segment the text
         processed_text = preprocess_text(request.text)
+        segments = segment_text(processed_text)
+        # Classify each segment
+        classified_segments = classify_segments(segments)
+        # Optionally, reduce tokens for some specific task or summarize
+        reduced_texts = [reduce_tokens(segment)[0] for segment in segments]
         return {
+            "classified_segments": classified_segments,
+            "reduced_texts": reduced_texts
         }
     except Exception as e: