Spaces:

sussahoo
/

table_extraction

Build error

sussahoo commited on Dec 14, 2022

Commit

6ddd6bb

1 Parent(s): cff53c7

Upload 4 files

Files changed (3) hide show

app.py CHANGED Viewed

@@ -14,6 +14,7 @@ from transformers import DetrFeatureExtractor
 from transformers import TableTransformerForObjectDetection
 import torch
 import gradio as gr
 def plot_results_detection(
@@ -396,7 +397,15 @@ def postprocess_dataframes(result_tables):
     return res
-def process_image(image):
     TD_THRESHOLD = 0.7
     TSR_THRESHOLD = 0.8
     padd_top = 100
@@ -461,13 +470,11 @@ examples = [["image_0.png"]]
 iface = gr.Interface(
     fn=process_image,
-    inputs=gr.Image(type="pil"),
     outputs="text",
     title=title,
     description=description,
     article=article,
     examples=examples,
 )
-iface.launch(debug=True)

 from transformers import TableTransformerForObjectDetection
 import torch
 import gradio as gr
+import pdf2image
 def plot_results_detection(
     return res
+def process_image(image, pdf):
+    if pdf:
+        path_to_pdf = pdf.name
+        # convert PDF to PIL images (one image by page)
+        first_page=True # we want here only the first page as image
+        if first_page: last_page = 1
+        else: last_page = None
+        imgs = pdf2image.convert_from_path(path_to_pdf, last_page=last_page)
+        image = imgs[0]
     TD_THRESHOLD = 0.7
     TSR_THRESHOLD = 0.8
     padd_top = 100
 iface = gr.Interface(
     fn=process_image,
+    inputs=[gr.Image(type="pil"), gr.File(label="PDF")]
     outputs="text",
     title=title,
     description=description,
     article=article,
     examples=examples,
 )
+iface.launch(debug=True)

packages.txt CHANGED Viewed

requirements.txt CHANGED Viewed

@@ -1,9 +1,12 @@
 opencv-python
 pytesseract
 Pillow
-gradio==3.13
 timm
 transformers
 numpy
 pandas
-torch

 opencv-python
 pytesseract
 Pillow
+gradio
 timm
 transformers
 numpy
 pandas
+torch
+craft_text_detector
+transformers[sentencepiece]
+pdf2image