Spaces:

JUNGU
/

gradio-gpt4o-RPA

Running

JUNGU commited on May 28, 2024

Commit

5cb55c0

verified ·

1 Parent(s): 17e66a5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,30 +1,47 @@
 import gradio as gr
-from PIL import Image
-import pytesseract
 import openai
 import os
 # Ensure you have your OpenAI API key set as an environment variable
-openai.api_key = os.getenv("OPENAI_API_KEY")
 def extract_and_summarize(image):
-    # Extract text from image
-    text = pytesseract.image_to_string(image)
     # Prepare the prompt for GPT-4
-    prompt = f"Please summarize the following text:\n\n{text}"
     # Call GPT-4 API for summarization
     response = openai.ChatCompletion.create(
-        model="gpt-4",
-        messages=[
-            {"role": "system", "content": "You are a helpful assistant."},
-            {"role": "user", "content": prompt}
-        ]
     )
     # Extract summary from GPT-4 response
-    summary = response['choices'][0]['message']['content']
     return summary

 import gradio as gr
 import openai
 import os
+from PIL import Image
+import base64
+import io
 # Ensure you have your OpenAI API key set as an environment variable
+openai.api_key = os.getenv("OPENAI_API_KEY", "<your OpenAI API key if not set as an env var>")
+def image_to_base64(image):
+    buffered = io.BytesIO()
+    image.save(buffered, format="JPEG")
+    img_str = base64.b64encode(buffered.getvalue()).decode()
+    return img_str
 def extract_and_summarize(image):
+    # Convert image to base64
+    image_base64 = image_to_base64(image)
     # Prepare the prompt for GPT-4
+    prompt = [
+        {
+            "role": "system",
+            "content": "You are a helpful assistant. Summarize the text content of the document image provided."
+        },
+        {
+            "role": "user",
+            "content": [
+                {"type": "text", "text": "Here is an image of a document. Please summarize its content."},
+                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
+            ]
+        }
+    ]
     # Call GPT-4 API for summarization
     response = openai.ChatCompletion.create(
+        model="gpt-4o",
+        messages=prompt,
+        max_tokens=300,
     )
     # Extract summary from GPT-4 response
+    summary = response.choices[0].message.content
     return summary