Spaces:

KIMOSSINO
/

transciptio

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 7, 2024

Commit

c23c554

verified ·

1 Parent(s): 2a32769

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -105

app.py CHANGED Viewed

@@ -1,10 +1,9 @@
 import gradio as gr
 import whisper
 import os
-import torch
-import torchaudio
-from transformers import pipeline, AutoProcessor, AutoModelForCausalLM
-from transformers import SpeechT5Model, SpeechT5Processor
 from deep_translator import GoogleTranslator
 from docx import Document
 import tempfile
@@ -32,57 +31,18 @@ SUPPORTED_LANGUAGES = {
     'de': 'Deutsch'
 }
-# تعيين نماذج الصوت
-TTS_MODELS = {
-    'ar': {
-        'male': "facebook/mms-tts-ara",
-        'female': "facebook/mms-tts-ara"
-    },
-    'en': {
-        'male': "microsoft/speecht5_tts",
-        'female': "microsoft/speecht5_tts"
-    },
-    'fr': {
-        'male': "facebook/mms-tts-fra",
-        'female': "facebook/mms-tts-fra"
-    },
-    'es': {
-        'male': "facebook/mms-tts-spa",
-        'female': "facebook/mms-tts-spa"
-    },
-    'de': {
-        'male': "facebook/mms-tts-deu",
-        'female': "facebook/mms-tts-deu"
-    }
-}
-# تعريف أنماط الصوت
-VOICE_STYLES = {
-    'normal': {'speed_factor': 1.0, 'pitch_shift': 0},
-    'excited': {'speed_factor': 1.2, 'pitch_shift': 2},
-    'calm': {'speed_factor': 0.9, 'pitch_shift': -1},
-    'angry': {'speed_factor': 1.1, 'pitch_shift': -2},
-    'broadcaster': {'speed_factor': 1.1, 'pitch_shift': 1}
 }
 # تحديد اللغات RTL
 RTL_LANGUAGES = ['ar']
-class TTSGenerator:
-    def __init__(self):
-        self.models = {}
-        self.processors = {}
-    def get_model(self, lang, gender):
-        key = f"{lang}_{gender}"
-        if key not in self.models:
-            model_name = TTS_MODELS[lang][gender]
-            self.processors[key] = AutoProcessor.from_pretrained(model_name)
-            self.models[key] = AutoModelForTextToSpeech.from_pretrained(model_name)
-        return self.processors[key], self.models[key]
-tts_generator = TTSGenerator()
 async def generate_speech(text, lang):
     """توليد الصوت باستخدام edge-tts"""
     try:
@@ -137,27 +97,22 @@ def text_to_speech(text, lang, progress=gr.Progress()):
         # دمج الملفات الصوتية إذا كان هناك أكثر من جزء
         from pydub import AudioSegment
-        try:
-            final_audio = AudioSegment.from_mp3(audio_files[0])
-            for audio_file in audio_files[1:]:
-                final_audio += AudioSegment.from_mp3(audio_file)
-            final_path = tempfile.mktemp(suffix='.mp3')
-            final_audio.export(final_path, format="mp3")
-            # تنظيف الملفات المؤقتة
-            for file in audio_files:
-                try:
-                    os.remove(file)
-                except:
-                    pass
-            progress(1.0, desc="تم إنشاء الصوت بنجاح!")
-            return final_path
-        except Exception as e:
-            logger.error(f"خطأ في دمج الملفات الصوتية: {str(e)}")
-            return None
     except Exception as e:
         logger.error(f"خطأ في تحويل النص إلى صوت: {str(e)}")
@@ -171,15 +126,19 @@ def create_document(original_text, translated_text, source_lang, target_lang, pr
         doc.add_heading('النص الأصلي والترجمة', 0)
         progress(0.3, desc="جاري إضافة المحتوى...")
         doc.add_paragraph(f'تم الإنشاء في: {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')
         doc.add_heading(f'النص الأصلي ({SUPPORTED_LANGUAGES[source_lang]})', level=1)
         doc.add_paragraph(original_text)
         progress(0.6, desc="جاري إضافة الترجمة...")
         doc.add_heading(f'الترجمة ({SUPPORTED_LANGUAGES[target_lang]})', level=1)
         doc.add_paragraph(translated_text)
         progress(0.9, desc="جاري حفظ المستند...")
         temp_path = tempfile.mktemp(suffix='.docx')
         doc.save(temp_path)
@@ -203,7 +162,7 @@ def translate_text(text, source_lang, target_lang, progress=gr.Progress()):
         translator = GoogleTranslator(source=source_lang, target=target_lang)
-        # تقسيم النص إلى أجزاء
         max_length = 5000
         text_parts = [text[i:i+max_length] for i in range(0, len(text), max_length)]
@@ -233,21 +192,26 @@ def process_video(video, source_lang="en", target_lang="ar", progress=gr.Progres
         }
     try:
         progress(0.1, desc="جاري تحميل الفيديو...")
         temp_path = video.name
         logger.info(f"تم استلام ملف فيديو: {temp_path}")
         progress(0.3, desc="جاري تحميل نموذج التعرف على الكلام...")
         model = whisper.load_model("base")
         progress(0.5, desc="جاري استخراج النص من الفيديو...")
         result = model.transcribe(temp_path, language=source_lang)
         transcribed_text = result["text"]
         logger.info("تم استخراج النص بنجاح")
         progress(0.7, desc="جاري ترجمة النص...")
         translated_text = translate_text(transcribed_text, source_lang, target_lang)
         progress(0.9, desc="جاري إنشاء المستند...")
         doc_path = create_document(transcribed_text, translated_text, source_lang, target_lang)
@@ -312,22 +276,8 @@ def create_ui():
                     elem_classes=["ltr"]
                 )
                 with gr.Row():
-                    with gr.Column():
-                        original_gender = gr.Radio(
-                            choices=["male", "female"],
-                            value="male",
-                            label="🧑 جنس المتحدث",
-                            info="اختر جنس المتحدث"
-                        )
-                        original_style = gr.Dropdown(
-                            choices=list(VOICE_STYLES.keys()),
-                            value="normal",
-                            label="🎭 نمط الصوت",
-                            info="اختر نمط الصوت المناسب"
-                        )
-                    with gr.Column():
-                        generate_original_audio = gr.Button("🔊 توليد الصوت", variant="secondary")
-                        original_audio = gr.Audio(label="الصوت", visible=True)
             with gr.TabItem("🔄 النص المترجم"):
                 translated_text = gr.Textbox(
@@ -336,22 +286,8 @@ def create_ui():
                     elem_classes=["rtl"]
                 )
                 with gr.Row():
-                    with gr.Column():
-                        translated_gender = gr.Radio(
-                            choices=["male", "female"],
-                            value="male",
-                            label="🧑 جنس المتحدث",
-                            info="اختر جنس المتحدث"
-                        )
-                        translated_style = gr.Dropdown(
-                            choices=list(VOICE_STYLES.keys()),
-                            value="normal",
-                            label="🎭 نمط الصوت",
-                            info="اختر نمط الصوت المناسب"
-                        )
-                    with gr.Column():
-                        generate_translated_audio = gr.Button("🔊 توليد الصوت", variant="secondary")
-                        translated_audio = gr.Audio(label="الصوت", visible=True)
         with gr.Row():
             download_btn = gr.File(
@@ -362,6 +298,7 @@ def create_ui():
         def update_ui(video, src_lang, tgt_lang):
             result = process_video(video, src_lang, tgt_lang)
             original_classes = "rtl" if src_lang in RTL_LANGUAGES else "ltr"
             translated_classes = "rtl" if tgt_lang in RTL_LANGUAGES else "ltr"
@@ -372,6 +309,7 @@ def create_ui():
                 download_btn: result["document"]
             }
         process_btn.click(
             fn=update_ui,
             inputs=[video_input, source_lang, target_lang],
@@ -380,13 +318,13 @@ def create_ui():
         generate_original_audio.click(
             fn=text_to_speech,
-            inputs=[original_text, source_lang, original_gender, original_style],
             outputs=[original_audio]
         )
         generate_translated_audio.click(
             fn=text_to_speech,
-            inputs=[translated_text, target_lang, translated_gender, translated_style],
             outputs=[translated_audio]
         )

 import gradio as gr
 import whisper
 import os
+import asyncio
+import edge_tts
+from transformers import pipeline
 from deep_translator import GoogleTranslator
 from docx import Document
 import tempfile
     'de': 'Deutsch'
 }
+# تعيين أصوات لكل لغة
+VOICE_MAPPINGS = {
+    'ar': 'ar-EG-ShakirNeural',
+    'en': 'en-US-EricNeural',
+    'fr': 'fr-FR-HenriNeural',
+    'es': 'es-ES-AlvaroNeural',
+    'de': 'de-DE-ConradNeural'
 }
 # تحديد اللغات RTL
 RTL_LANGUAGES = ['ar']
 async def generate_speech(text, lang):
     """توليد الصوت باستخدام edge-tts"""
     try:
         # دمج الملفات الصوتية إذا كان هناك أكثر من جزء
         from pydub import AudioSegment
+        final_audio = AudioSegment.from_mp3(audio_files[0])
+        for audio_file in audio_files[1:]:
+            final_audio += AudioSegment.from_mp3(audio_file)
+        final_path = tempfile.mktemp(suffix='.mp3')
+        final_audio.export(final_path, format="mp3")
+        # تنظيف الملفات المؤقتة
+        for file in audio_files:
+            try:
+                os.remove(file)
+            except:
+                pass
+        progress(1.0, desc="تم إنشاء الصوت بنجاح!")
+        return final_path
     except Exception as e:
         logger.error(f"خطأ في تحويل النص إلى صوت: {str(e)}")
         doc.add_heading('النص الأصلي والترجمة', 0)
         progress(0.3, desc="جاري إضافة المحتوى...")
+        # إضافة التاريخ والوقت
         doc.add_paragraph(f'تم الإنشاء في: {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')
+        # إضافة النص الأصلي
         doc.add_heading(f'النص الأصلي ({SUPPORTED_LANGUAGES[source_lang]})', level=1)
         doc.add_paragraph(original_text)
         progress(0.6, desc="جاري إضافة الترجمة...")
+        # إضافة الترجمة
         doc.add_heading(f'الترجمة ({SUPPORTED_LANGUAGES[target_lang]})', level=1)
         doc.add_paragraph(translated_text)
+        # حفظ الملف
         progress(0.9, desc="جاري حفظ المستند...")
         temp_path = tempfile.mktemp(suffix='.docx')
         doc.save(temp_path)
         translator = GoogleTranslator(source=source_lang, target=target_lang)
+        # تقسيم النص إلى أجزاء إذا كان طويلاً
         max_length = 5000
         text_parts = [text[i:i+max_length] for i in range(0, len(text), max_length)]
         }
     try:
+        # حفظ الفيديو مؤقتاً
         progress(0.1, desc="جاري تحميل الفيديو...")
         temp_path = video.name
         logger.info(f"تم استلام ملف فيديو: {temp_path}")
+        # تحميل نموذج Whisper
         progress(0.3, desc="جاري تحميل نموذج التعرف على الكلام...")
         model = whisper.load_model("base")
+        # استخراج النص
         progress(0.5, desc="جاري استخراج النص من الفيديو...")
         result = model.transcribe(temp_path, language=source_lang)
         transcribed_text = result["text"]
         logger.info("تم استخراج النص بنجاح")
+        # ترجمة النص
         progress(0.7, desc="جاري ترجمة النص...")
         translated_text = translate_text(transcribed_text, source_lang, target_lang)
+        # إنشاء ملف Word
         progress(0.9, desc="جاري إنشاء المستند...")
         doc_path = create_document(transcribed_text, translated_text, source_lang, target_lang)
                     elem_classes=["ltr"]
                 )
                 with gr.Row():
+                    generate_original_audio = gr.Button("🔊 توليد الصوت", variant="secondary")
+                    original_audio = gr.Audio(label="الصوت", visible=True)
             with gr.TabItem("🔄 النص المترجم"):
                 translated_text = gr.Textbox(
                     elem_classes=["rtl"]
                 )
                 with gr.Row():
+                    generate_translated_audio = gr.Button("🔊 توليد الصوت", variant="secondary")
+                    translated_audio = gr.Audio(label="الصوت", visible=True)
         with gr.Row():
             download_btn = gr.File(
         def update_ui(video, src_lang, tgt_lang):
             result = process_video(video, src_lang, tgt_lang)
+            # تحديث اتجاه النص
             original_classes = "rtl" if src_lang in RTL_LANGUAGES else "ltr"
             translated_classes = "rtl" if tgt_lang in RTL_LANGUAGES else "ltr"
                 download_btn: result["document"]
             }
+        # ربط الأحداث
         process_btn.click(
             fn=update_ui,
             inputs=[video_input, source_lang, target_lang],
         generate_original_audio.click(
             fn=text_to_speech,
+            inputs=[original_text, source_lang],
             outputs=[original_audio]
         )
         generate_translated_audio.click(
             fn=text_to_speech,
+            inputs=[translated_text, target_lang],
             outputs=[translated_audio]
         )