Spaces:

not-lain
/

utils

Running

not-lain commited on Nov 14, 2024

Commit

fac9a75

1 Parent(s): 722734e

add pptx text extraction

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -4,7 +4,6 @@ WORKDIR /app
 COPY . .
-# RUN --mount=target=/tmp/packages.txt 	apt-get update && 	xargs -r -a /app/packages.txt apt-get install -y && 	apt-get install -y curl && 	curl -fsSL https://deb.nodesource.com/setup_20.x | bash - && 	apt-get install -y nodejs && 	rm -rf /var/lib/apt/lists/* && apt-get clean
 RUN --mount=target=/tmp/packages.txt,source=packages.txt 	apt-get update && 	xargs -r -a /tmp/packages.txt apt-get install -y && 	apt-get install -y curl && 	curl -fsSL https://deb.nodesource.com/setup_20.x | bash - && 	apt-get install -y nodejs && 	rm -rf /var/lib/apt/lists/* && apt-get clean
 RUN ln -s /usr/lib/python3/dist-packages/uno.py /usr/local/lib/python3.9/site-packages/
 RUN ln -s /usr/lib/python3/dist-packages/unohelper.py /usr/local/lib/python3.9/site-packages/
@@ -27,6 +26,4 @@ WORKDIR $HOME/app
 COPY --chown=user . $HOME/app
-#COPY . .
 CMD ["python","app.py"]

 COPY . .
 RUN --mount=target=/tmp/packages.txt,source=packages.txt 	apt-get update && 	xargs -r -a /tmp/packages.txt apt-get install -y && 	apt-get install -y curl && 	curl -fsSL https://deb.nodesource.com/setup_20.x | bash - && 	apt-get install -y nodejs && 	rm -rf /var/lib/apt/lists/* && apt-get clean
 RUN ln -s /usr/lib/python3/dist-packages/uno.py /usr/local/lib/python3.9/site-packages/
 RUN ln -s /usr/lib/python3/dist-packages/unohelper.py /usr/local/lib/python3.9/site-packages/
 COPY --chown=user . $HOME/app
 CMD ["python","app.py"]

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import gradio as gr
 from pdf2image import convert_from_path
 import pdfplumber
@@ -6,6 +7,20 @@ import subprocess
 import os
 def convert_pdf_to_image(file):
     images = convert_from_path(file)
     return images
@@ -72,9 +87,16 @@ doc_or_docx_to_text = gr.Interface(
     api_name="doc_or_docx_to_text",
 )
 demo = gr.TabbedInterface(
-    [pdf_to_img, pdf_to_text, doc_or_docx_to_text],
-    ["PDF to Image", "Extract PDF Text", "Extract DOC/DOCX Text"],
 )
-demo.launch(server_name = "0.0.0.0.", server_port = 7860, debug = True)

+from pptx import Presentation
 import gradio as gr
 from pdf2image import convert_from_path
 import pdfplumber
 import os
+def extract_text_from_pptx(file_path):
+    prs = Presentation(file_path)
+    text_content = []
+    for slide in prs.slides:
+        slide_text = []
+        for shape in slide.shapes:
+            if hasattr(shape, "text"):
+                slide_text.append(shape.text)
+        text_content.append("\n".join(slide_text))
+    return "\n\n".join(text_content)
 def convert_pdf_to_image(file):
     images = convert_from_path(file)
     return images
     api_name="doc_or_docx_to_text",
 )
+pptx_to_text = gr.Interface(
+    extract_text_from_pptx,
+    gr.File(),
+    gr.Textbox(placeholder="Extracted text from PPTX will appear here"),
+    api_name="pptx_to_text",
+)
 demo = gr.TabbedInterface(
+    [pdf_to_img, pdf_to_text, doc_or_docx_to_text, pptx_to_text],
+    ["PDF to Image", "Extract PDF Text", "Extract DOC/DOCX Text", "Extract PPTX Text"],
 )
+demo.launch(server_name="0.0.0.0.", server_port=7860, debug=True)

requirements.txt CHANGED Viewed

@@ -3,3 +3,4 @@ gradio
 pdfplumber
 python-docx
 gradio

 pdfplumber
 python-docx
 gradio
+python-pptx