Spaces:

nsandiman
/

uarizona-msis-capstone-group5-imagecraft

Running on Zero

Ngaima Sandiman commited on Oct 14

Commit

332a6dc

•

1 Parent(s): 390e0ad

Updated license and added images.

Files changed (7) hide show

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-title: Uarizona Msis Capstone Group5 Imagecraft
 emoji: 🏢
 colorFrom: gray
 colorTo: yellow
@@ -8,6 +8,12 @@ sdk_version: 4.44.1
 app_file: app.py
 pinned: false
 short_description: Image to speech
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Imagecraft
 emoji: 🏢
 colorFrom: gray
 colorTo: yellow
 app_file: app.py
 pinned: false
 short_description: Image to speech
+license: cc-by-nc-sa-4.0
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+```bash
+conda create -n imagecraft_gradio python=3.10.13
+pip install -r requirements.txt
+```

app.py CHANGED Viewed

@@ -12,26 +12,27 @@ from src.model.modules.imagecraft import ImageCraft
 model = ImageCraft.from_pretrained("nsandiman/imagecraft-ft-co-224")
 @spaces.GPU
-def imagecraft_interface(image_path):
     """Process image inputs and generate audio response."""
     transcript, audio_buffer = model.generate(image_path, output_type="buffer")
     return audio_buffer, transcript
-# Define Gradio interface
-gradio_interface = gr.Interface(
-    fn=imagecraft_interface,
     inputs=[
-        gr.Image(type="filepath", label="Upload an image"),
     ],
-    outputs=[gr.Audio(label="Speech"), gr.Textbox(label="Transcript")],
     title="ImageCraft",
     description="Upload an image and get the speech responses.",
     allow_flagging="never",
 )
-# Launch the Gradio app
-gradio_interface.launch()

 model = ImageCraft.from_pretrained("nsandiman/imagecraft-ft-co-224")
+default_image = "media/images/3.jpg"
 @spaces.GPU
+def generate(image_path):
     """Process image inputs and generate audio response."""
     transcript, audio_buffer = model.generate(image_path, output_type="buffer")
     return audio_buffer, transcript
+imagecraft_app = gr.Interface(
+    fn=generate,
     inputs=[
+        gr.Image(type="filepath", label="Upload an image", value=default_image),
     ],
+    outputs=[gr.Audio(label="Speech"), gr.Textbox(label="Text")],
     title="ImageCraft",
     description="Upload an image and get the speech responses.",
     allow_flagging="never",
 )
+if __name__ == "__main__":
+    imagecraft_app.launch()

media/images/1.jpeg ADDED Viewed

media/images/2.jpg ADDED Viewed

media/images/3.jpg ADDED Viewed

media/images/4.jpeg ADDED Viewed

media/images/5.jpeg ADDED Viewed