Spaces:

Chethu
/

Image_Whisper

Runtime error

Chethu commited on Mar 11

Commit

63116e6

•

1 Parent(s): 4e87e84

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,37 +1,31 @@
-import os
-from PIL import Image, ImageDraw, ImageFont
-import gradio as gr
-from helper import load_image_from_url, render_results_in_image
-from helper import summarize_predictions_natural_language
-from transformers import pipeline
-from tokenizers import Tokenizer, Encoding
-from tokenizers import decoders
-from tokenizers import models
-from tokenizers import normalizers
-from tokenizers import pre_tokenizers
-from tokenizers import processors
-import matplotlib.pyplot as plt
-import requests
-import inflect
-from predictions import get_predictions
-from helper import ignore_warnings
-ignore_warnings()
-from transformers.utils import logging
-logging.set_verbosity_error()
-od_pipe = pipeline("object-detection", "facebook/detr-resnet-50")
-tts_pipe = pipeline("text-to-speech",
-                    model="kakao-enterprise/vits-ljs")
-demo = gr.Interface(
-  fn=get_predictions,
-  inputs=gr.Image(label="Input image",
-                  type="pil"),
-  outputs=[gr.Image(label="Output image with predicted instances",
-                   type="pil"), gr.Audio(label="Narration", type="numpy",  autoplay=True)]
-  #outputs=gr.Image(label="Output image with predicted instances",
-  #                 type="pil")
-)
-#demo.launch(server_name="0.0.0.0", server_port=7860)
-demo.launch()

+import streamlit as st
+from PIL import Image
+from predictions import get_predictions
+def main():
+    st.title("Image Whisper App")
+    uploaded_image = st.file_uploader("Upload an image", type=["jpg", "jpeg", "png"])
+    if uploaded_image is not None:
+        st.subheader("Uploaded Image")
+        st.image(uploaded_image, use_column_width=True)
+        if st.button("Submit"):
+            processed_image, text, audio = get_predictions(uploaded_image)
+            st.subheader("Detected Objects")
+            st.image(processed_image, use_column_width=True)
+            st.subheader("Predicted Text")
+            st.write(text)
+            st.subheader("Audio Output")
+            if isinstance(audio, tuple):
+                sample_rate, audio_data = audio
+                st.audio(audio_data, format='audio/wav', sample_rate=sample_rate)
+            else:
+                st.audio(audio, format='audio/wav')
+if __name__ == '__main__':
+    main()