Spaces:

KIMOSSINO
/

transciptio

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 7, 2024

Commit

8fe5e17

verified ·

1 Parent(s): 4dbc39d

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -52

app.py CHANGED Viewed

@@ -83,43 +83,28 @@ class TTSGenerator:
 tts_generator = TTSGenerator()
-def generate_speech(text, lang, gender='male', style='normal'):
-    """توليد الصوت باستخدام نماذج Hugging Face"""
     try:
-        if not text:
-            logger.warning("لم يتم تقديم نص للتحويل إلى صوت")
             return None
-        processor, model = tts_generator.get_model(lang, gender)
-        style_params = VOICE_STYLES[style]
-        # تحويل النص إلى توكنز
-        inputs = processor(text=text, return_tensors="pt")
-        # توليد الصوت
-        speech = model.generate_speech(inputs["input_ids"], processor)
-        # تطبيق التأثيرات الصوتية
-        if style != 'normal':
-            speech = torchaudio.functional.speed(speech, style_params['speed_factor'])
-            if style_params['pitch_shift'] != 0:
-                speech = torchaudio.functional.pitch_shift(
-                    speech,
-                    sample_rate=16000,
-                    n_steps=style_params['pitch_shift']
-                )
-        # حفظ الصوت في ملف مؤقت
-        audio_path = tempfile.mktemp(suffix='.wav')
-        torchaudio.save(audio_path, speech.unsqueeze(0), 16000)
-        return audio_path
     except Exception as e:
         logger.error(f"خطأ في توليد الصوت: {str(e)}")
         return None
-def text_to_speech(text, lang, gender='male', style='normal', progress=gr.Progress()):
     """واجهة لتحويل النص إلى صوت"""
     if not text:
         logger.warning("لم يتم تقديم نص للتحويل إلى صوت")
@@ -129,14 +114,15 @@ def text_to_speech(text, lang, gender='male', style='normal', progress=gr.Progre
         progress(0.2, desc="جاري تجهيز الصوت...")
         logger.info(f"بدء تحويل النص إلى صوت باللغة: {lang}")
-        # تقسيم النص إلى جمل
-        sentences = text.split('.')
-        sentences = [s.strip() + '.' for s in sentences if s.strip()]
         audio_files = []
-        for i, sentence in enumerate(sentences):
-            progress((i + 1) / len(sentences), desc=f"معالجة الجملة {i+1} من {len(sentences)}...")
-            audio_path = generate_speech(sentence, lang, gender, style)
             if audio_path:
                 audio_files.append(audio_path)
@@ -144,28 +130,34 @@ def text_to_speech(text, lang, gender='male', style='normal', progress=gr.Progre
             logger.error("لم يتم إنشاء أي ملفات صوتية")
             return None
         if len(audio_files) == 1:
             return audio_files[0]
-        # دمج الملفات الصوتية
         from pydub import AudioSegment
-        final_audio = AudioSegment.from_wav(audio_files[0])
-        for audio_file in audio_files[1:]:
-            final_audio += AudioSegment.from_wav(audio_file)
-        final_path = tempfile.mktemp(suffix='.wav')
-        final_audio.export(final_path, format="wav")
-        # تنظيف الملفات المؤقتة
-        for file in audio_files:
-            try:
-                os.remove(file)
-            except:
-                pass
-        progress(1.0, desc="تم إنشاء الصوت بنجاح!")
-        return final_path
     except Exception as e:
         logger.error(f"خطأ في تحويل النص إلى صوت: {str(e)}")

 tts_generator = TTSGenerator()
+async def generate_speech(text, lang):
+    """توليد الصوت باستخدام edge-tts"""
     try:
+        voice = VOICE_MAPPINGS.get(lang, 'en-US-EricNeural')
+        communicate = edge_tts.Communicate(text, voice)
+        audio_path = tempfile.mktemp(suffix='.mp3')
+        await communicate.save(audio_path)
+        # التحقق من وجود الملف وحجمه
+        if os.path.exists(audio_path) and os.path.getsize(audio_path) > 0:
+            logger.info(f"تم إنشاء ملف صوتي: {audio_path}")
+            return audio_path
+        else:
+            logger.error("فشل إنشاء ملف صوتي صالح")
             return None
     except Exception as e:
         logger.error(f"خطأ في توليد الصوت: {str(e)}")
         return None
+def text_to_speech(text, lang, progress=gr.Progress()):
     """واجهة لتحويل النص إلى صوت"""
     if not text:
         logger.warning("لم يتم تقديم نص للتحويل إلى صوت")
         progress(0.2, desc="جاري تجهيز الصوت...")
         logger.info(f"بدء تحويل النص إلى صوت باللغة: {lang}")
+        # تقسيم النص إلى أجزاء إذا كان طويلاً
+        max_length = 1000
+        text_parts = [text[i:i+max_length] for i in range(0, len(text), max_length)]
+        # إنشاء ملف صوتي لكل جزء
         audio_files = []
+        for i, part in enumerate(text_parts):
+            progress((i + 1) / len(text_parts), desc=f"معالجة الجزء {i+1} من {len(text_parts)}...")
+            audio_path = asyncio.run(generate_speech(part, lang))
             if audio_path:
                 audio_files.append(audio_path)
             logger.error("لم يتم إنشاء أي ملفات صوتية")
             return None
+        # إذا كان هناك جزء واحد فقط
         if len(audio_files) == 1:
             return audio_files[0]
+        # دمج الملفات الصوتية إذا كان هناك أكثر من جزء
         from pydub import AudioSegment
+        try:
+            final_audio = AudioSegment.from_mp3(audio_files[0])
+            for audio_file in audio_files[1:]:
+                final_audio += AudioSegment.from_mp3(audio_file)
+            final_path = tempfile.mktemp(suffix='.mp3')
+            final_audio.export(final_path, format="mp3")
+            # تنظيف الملفات المؤقتة
+            for file in audio_files:
+                try:
+                    os.remove(file)
+                except:
+                    pass
+            progress(1.0, desc="تم إنشاء الصوت بنجاح!")
+            return final_path
+        except Exception as e:
+            logger.error(f"خطأ في دمج الملفات الصوتية: {str(e)}")
+            return None
     except Exception as e:
         logger.error(f"خطأ في تحويل النص إلى صوت: {str(e)}")