Spaces:

VDNT11
/

Multilingual-Assistive-Model

Running

App Files Files Community

VDNT11 commited on Oct 8

Commit

2f388b7

•

1 Parent(s): 09eb658

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -12

app.py CHANGED Viewed

@@ -13,9 +13,6 @@ if not os.path.exists('IndicTransToolkit'):
     os.system('git clone https://github.com/VarunGumma/IndicTransToolkit')
     os.system('cd IndicTransToolkit && python3 -m pip install --editable ./')
-# Ensure that IndicTransToolkit is installed and used properly
-from IndicTransToolkit import IndicProcessor
 # Initialize BLIP for image captioning
 blip_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 blip_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base").to("cuda" if torch.cuda.is_available() else "cpu")
@@ -112,9 +109,16 @@ if uploaded_image is not None:
     st.write(f"Caption: {caption}")
     # Select target languages for translation
     target_languages = st.multiselect(
         "Select target languages for translation",
-        ["hin_Deva", "mar_Deva", "guj_Gujr", "urd_Arab"],  # Add more languages as needed
         ["hin_Deva", "mar_Deva"]
     )
@@ -123,21 +127,32 @@ if uploaded_image is not None:
         st.write("Translating Caption...")
         translations = translate_caption(caption, target_languages)
         st.write("Translations:")
-        for lang, translation in translations.items():
-            st.write(f"{lang}: {translation}")
-        # Default to gTTS for TTS
         for lang in target_languages:
-            st.write(f"Using gTTS for {lang}...")
             lang_code = {
                 "hin_Deva": "hi",  # Hindi
                 "guj_Gujr": "gu",  # Gujarati
                 "urd_Arab": "ur"   # Urdu
             }.get(lang, "en")
-            output_file = f"{lang}_gTTS.mp3"
-            audio_file = generate_audio_gtts(translations[lang], lang_code, output_file)
-            st.write(f"Playing {lang} audio:")
             st.audio(audio_file)
 else:
     st.write("Upload an image to start.")

     os.system('git clone https://github.com/VarunGumma/IndicTransToolkit')
     os.system('cd IndicTransToolkit && python3 -m pip install --editable ./')
 # Initialize BLIP for image captioning
 blip_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 blip_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base").to("cuda" if torch.cuda.is_available() else "cpu")
     st.write(f"Caption: {caption}")
     # Select target languages for translation
+    language_options = {
+        "hin_Deva": "Hindi (Devanagari)",
+        "mar_Deva": "Marathi (Devanagari)",
+        "guj_Gujr": "Gujarati (Gujrati)",
+        "urd_Arab": "Urdu (Arabic)",
+    }
     target_languages = st.multiselect(
         "Select target languages for translation",
+        list(language_options.keys()),
         ["hin_Deva", "mar_Deva"]
     )
         st.write("Translating Caption...")
         translations = translate_caption(caption, target_languages)
         st.write("Translations:")
+        for lang in target_languages:
+            st.write(f"{language_options[lang]}: {translations[lang]}")
+        # Select audio generation method
+        audio_method = st.radio("Choose Audio Generation Method", ("gTTS (Default)", "Facebook MMS-TTS"))
+        # Generate audio for each target language
         for lang in target_languages:
+            st.write(f"Generating audio for {language_options[lang]}...")
             lang_code = {
                 "hin_Deva": "hi",  # Hindi
+                "mar_Deva": "mr",  # Marathi
                 "guj_Gujr": "gu",  # Gujarati
                 "urd_Arab": "ur"   # Urdu
             }.get(lang, "en")
+            output_file = f"{lang}_audio.mp3"
+            if audio_method == "gTTS (Default)":
+                audio_file = generate_audio_gtts(translations[lang], lang_code, output_file)
+            else:
+                model_name = "your_facebook_mms_model_name"  # Update this to the correct model name
+                audio_file = generate_audio_fbmms(translations[lang], model_name, output_file)
+            st.write(f"Playing {language_options[lang]} audio:")
             st.audio(audio_file)
 else:
     st.write("Upload an image to start.")