Spaces:

Steven-GU-Yu-Di
/

ISOM5240-Group4-Project-Version2

Runtime error

App Files Files Community

Steven-GU-Yu-Di commited on Mar 21

Commit

8e585c6

•

1 Parent(s): 27133d4

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -35

app.py CHANGED Viewed

@@ -1,50 +1,42 @@
 import streamlit as st
-from transformers import pipeline, Text2SpeechPipeline, VisualQAProcessor
 from PIL import Image
-# Load the text classification model
-classifier = pipeline("text-classification")
 # Load the Visual Question Answering (VQA) model
-vqa_model = VisualQAProcessor.from_pretrained("bert-large-uncased-whole-word-masking-finetuned-squad")
-# Load the Text-to-Speech model
-tts_model = Text2SpeechPipeline("facebook/wav2vec2-base-960h")
 # Create a Streamlit app
-st.title("Image, Text, and Speech Classification")
 # Sidebar for user inputs
-st.sidebar.title("Input")
-uploaded_image = st.sidebar.file_uploader("Upload Image", type=["jpg", "jpeg", "png"])
-text_input = st.sidebar.text_input("Enter Text Description")
-question_input = st.sidebar.text_input("Enter Question for Image")
-# Function to classify image and text
-def classify(image, text, question):
-    if image is not None and text:
         image = Image.open(image)
         st.image(image, caption="Uploaded Image", use_column_width=True)
-        st.write("Text Description:", text)
-        st.write("Question for Image:", question)
-        # Text classification
-        text_result = classifier(text)
-        st.write("Text Classification Result:")
-        st.write(text_result)
         # Visual Question Answering
         vqa_input = {
             "question": question,
-            "context": text_result[0]['label'],
         }
-        vqa_output = vqa_model(vqa_input)
-        st.write("Visual Question Answering Result:")
-        st.write(vqa_output)
-        # Text-to-Speech
-        tts_input = vqa_output['answer']
-        tts_output = tts_model(tts_input)
-        st.audio(tts_output[0]['audio'], format='audio/wav')
-# Button to trigger classification
-if st.sidebar.button("Classify"):
-    classify(uploaded_image, text_input, question_input)

+!pip install streamlit transformers gtts
 import streamlit as st
+from transformers import pipeline
 from PIL import Image
+from gtts import gTTS
+import os
 # Load the Visual Question Answering (VQA) model
+vqa_model = pipeline("question-answering")
 # Create a Streamlit app
+st.title("Visual Question Answering and Text-to-Speech")
 # Sidebar for user inputs
+uploaded_image = st.file_uploader("Upload Image", type=["jpg", "jpeg", "png"])
+question_input = st.text_input("Enter Question")
+# Function to perform Visual Question Answering
+def perform_vqa(image, question):
+    if image is not None and question:
         image = Image.open(image)
         st.image(image, caption="Uploaded Image", use_column_width=True)
+        st.write("Question:", question)
         # Visual Question Answering
         vqa_input = {
             "question": question,
+            "context": "This is an image.",
         }
+        vqa_output = vqa_model(image=image, **vqa_input)
+        answer = vqa_output['answer']
+        st.write("Answer:", answer)
+        # Text-to-Speech using gTTS
+        tts = gTTS(answer)
+        tts.save("output.mp3")
+        st.audio("output.mp3", format='audio/mp3')
+# Button to trigger Visual Question Answering and Text-to-Speech
+if st.button("Perform VQA and TTS"):
+    perform_vqa(uploaded_image, question_input)