Spaces:

KIMOSSINO
/

transciptio

Sleeping

App Files Files Community

transciptio / app.py

KIMOSSINO

Update app.py

f628a74 verified 4 months ago

raw

history blame

15.6 kB

	import gradio as gr
	import whisper
	import os
	import torch
	import torchaudio
	from transformers import pipeline, AutoProcessor, AutoModelForCausalLM
	from transformers import SpeechT5Model, SpeechT5Processor
	from deep_translator import GoogleTranslator
	from docx import Document
	import tempfile
	from datetime import datetime
	import logging
	import sys

	# إعداد التسجيل
	logging.basicConfig(
	level=logging.INFO,
	format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
	handlers=[
	logging.FileHandler('app.log'),
	logging.StreamHandler(sys.stdout)
	]
	)
	logger = logging.getLogger(__name__)

	# قائمة اللغات المدعومة
	SUPPORTED_LANGUAGES = {
	'ar': 'العربية',
	'en': 'English',
	'fr': 'Français',
	'es': 'Español',
	'de': 'Deutsch'
	}

	# تعيين نماذج الصوت
	TTS_MODELS = {
	'ar': {
	'male': "facebook/mms-tts-ara",
	'female': "facebook/mms-tts-ara"
	},
	'en': {
	'male': "microsoft/speecht5_tts",
	'female': "microsoft/speecht5_tts"
	},
	'fr': {
	'male': "facebook/mms-tts-fra",
	'female': "facebook/mms-tts-fra"
	},
	'es': {
	'male': "facebook/mms-tts-spa",
	'female': "facebook/mms-tts-spa"
	},
	'de': {
	'male': "facebook/mms-tts-deu",
	'female': "facebook/mms-tts-deu"
	}
	}

	# تعريف أنماط الصوت
	VOICE_STYLES = {
	'normal': {'speed_factor': 1.0, 'pitch_shift': 0},
	'excited': {'speed_factor': 1.2, 'pitch_shift': 2},
	'calm': {'speed_factor': 0.9, 'pitch_shift': -1},
	'angry': {'speed_factor': 1.1, 'pitch_shift': -2},
	'broadcaster': {'speed_factor': 1.1, 'pitch_shift': 1}
	}

	# تحديد اللغات RTL
	RTL_LANGUAGES = ['ar']

	class TTSGenerator:
	def __init__(self):
	self.models = {}
	self.processors = {}

	def get_model(self, lang, gender):
	key = f"{lang}_{gender}"
	if key not in self.models:
	model_name = TTS_MODELS[lang][gender]
	self.processors[key] = AutoProcessor.from_pretrained(model_name)
	self.models[key] = AutoModelForTextToSpeech.from_pretrained(model_name)
	return self.processors[key], self.models[key]

	tts_generator = TTSGenerator()

	def generate_speech(text, lang, gender='male', style='normal'):
	"""توليد الصوت باستخدام نماذج Hugging Face"""
	try:
	if not text:
	logger.warning("لم يتم تقديم نص للتحويل إلى صوت")
	return None

	processor, model = tts_generator.get_model(lang, gender)
	style_params = VOICE_STYLES[style]

	# تحويل النص إلى توكنز
	inputs = processor(text=text, return_tensors="pt")

	# توليد الصوت
	speech = model.generate_speech(inputs["input_ids"], processor)

	# تطبيق التأثيرات الصوتية
	if style != 'normal':
	speech = torchaudio.functional.speed(speech, style_params['speed_factor'])
	if style_params['pitch_shift'] != 0:
	speech = torchaudio.functional.pitch_shift(
	speech,
	sample_rate=16000,
	n_steps=style_params['pitch_shift']
	)

	# حفظ الصوت في ملف مؤقت
	audio_path = tempfile.mktemp(suffix='.wav')
	torchaudio.save(audio_path, speech.unsqueeze(0), 16000)

	return audio_path

	except Exception as e:
	logger.error(f"خطأ في توليد الصوت: {str(e)}")
	return None

	def text_to_speech(text, lang, gender='male', style='normal', progress=gr.Progress()):
	"""واجهة لتحويل النص إلى صوت"""
	if not text:
	logger.warning("لم يتم تقديم نص للتحويل إلى صوت")
	return None

	try:
	progress(0.2, desc="جاري تجهيز الصوت...")
	logger.info(f"بدء تحويل النص إلى صوت باللغة: {lang}")

	# تقسيم النص إلى جمل
	sentences = text.split('.')
	sentences = [s.strip() + '.' for s in sentences if s.strip()]

	audio_files = []
	for i, sentence in enumerate(sentences):
	progress((i + 1) / len(sentences), desc=f"معالجة الجملة {i+1} من {len(sentences)}...")
	audio_path = generate_speech(sentence, lang, gender, style)
	if audio_path:
	audio_files.append(audio_path)

	if not audio_files:
	logger.error("لم يتم إنشاء أي ملفات صوتية")
	return None

	if len(audio_files) == 1:
	return audio_files[0]

	# دمج الملفات الصوتية
	from pydub import AudioSegment

	final_audio = AudioSegment.from_wav(audio_files[0])
	for audio_file in audio_files[1:]:
	final_audio += AudioSegment.from_wav(audio_file)

	final_path = tempfile.mktemp(suffix='.wav')
	final_audio.export(final_path, format="wav")

	# تنظيف الملفات المؤقتة
	for file in audio_files:
	try:
	os.remove(file)
	except:
	pass

	progress(1.0, desc="تم إنشاء الصوت بنجاح!")
	return final_path

	except Exception as e:
	logger.error(f"خطأ في تحويل النص إلى صوت: {str(e)}")
	return None

	def create_document(original_text, translated_text, source_lang, target_lang, progress=gr.Progress()):
	"""إنشاء ملف Word يحتوي على النص الأصلي والترجمة"""
	try:
	progress(0, desc="جاري إنشاء المستند...")
	doc = Document()
	doc.add_heading('النص الأصلي والترجمة', 0)

	progress(0.3, desc="جاري إضافة المحتوى...")
	doc.add_paragraph(f'تم الإنشاء في: {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')

	doc.add_heading(f'النص الأصلي ({SUPPORTED_LANGUAGES[source_lang]})', level=1)
	doc.add_paragraph(original_text)

	progress(0.6, desc="جاري إضافة الترجمة...")
	doc.add_heading(f'الترجمة ({SUPPORTED_LANGUAGES[target_lang]})', level=1)
	doc.add_paragraph(translated_text)

	progress(0.9, desc="جاري حفظ المستند...")
	temp_path = tempfile.mktemp(suffix='.docx')
	doc.save(temp_path)

	progress(1.0, desc="تم إنشاء المستند بنجاح!")
	logger.info(f"تم إنشاء مستند Word: {temp_path}")
	return temp_path

	except Exception as e:
	logger.error(f"خطأ في إنشاء المستند: {str(e)}")
	return None

	def translate_text(text, source_lang, target_lang, progress=gr.Progress()):
	"""ترجمة النص باستخدام deep-translator"""
	if source_lang == target_lang:
	return text

	try:
	progress(0.3, desc="جاري الترجمة...")
	logger.info(f"بدء الترجمة من {source_lang} إلى {target_lang}")

	translator = GoogleTranslator(source=source_lang, target=target_lang)

	# تقسيم النص إلى أجزاء
	max_length = 5000
	text_parts = [text[i:i+max_length] for i in range(0, len(text), max_length)]

	translated_parts = []
	for i, part in enumerate(text_parts):
	progress((i + 1) / len(text_parts), desc=f"ترجمة الجزء {i+1} من {len(text_parts)}...")
	translated_part = translator.translate(part)
	translated_parts.append(translated_part)

	translated_text = ' '.join(translated_parts)
	progress(1.0, desc="تمت الترجمة بنجاح!")

	return translated_text

	except Exception as e:
	logger.error(f"خطأ في الترجمة: {str(e)}")
	return f"خطأ في الترجمة: {str(e)}"

	def process_video(video, source_lang="en", target_lang="ar", progress=gr.Progress()):
	"""معالجة الفيديو واستخراج النص وترجمته"""
	if video is None:
	return {
	"error": "الرجاء رفع ملف فيديو",
	"original": "",
	"translated": "",
	"document": None
	}

	try:
	progress(0.1, desc="جاري تحميل الفيديو...")
	temp_path = video.name
	logger.info(f"تم استلام ملف فيديو: {temp_path}")

	progress(0.3, desc="جاري تحميل نموذج التعرف على الكلام...")
	model = whisper.load_model("base")

	progress(0.5, desc="جاري استخراج النص من الفيديو...")
	result = model.transcribe(temp_path, language=source_lang)
	transcribed_text = result["text"]
	logger.info("تم استخراج النص بنجاح")

	progress(0.7, desc="جاري ترجمة النص...")
	translated_text = translate_text(transcribed_text, source_lang, target_lang)

	progress(0.9, desc="جاري إنشاء المستند...")
	doc_path = create_document(transcribed_text, translated_text, source_lang, target_lang)

	progress(1.0, desc="تمت المعالجة بنجاح!")
	return {
	"error": None,
	"original": transcribed_text,
	"translated": translated_text,
	"document": doc_path
	}

	except Exception as e:
	logger.error(f"خطأ في معالجة الفيديو: {str(e)}")
	return {
	"error": f"حدث خطأ: {str(e)}",
	"original": "",
	"translated": "",
	"document": None
	}

	def create_ui():
	"""إنشاء واجهة المستخدم"""
	with gr.Blocks(theme=gr.themes.Soft(
	primary_hue="blue",
	secondary_hue="indigo",
	)) as demo:
	gr.Markdown(
	"""
	# 🎥 منصة تحويل الفيديو إلى نص مع الترجمة
	### قم برفع فيديو للحصول على النص والترجمة مع إمكانية تحويل النص إلى صوت
	"""
	)

	with gr.Row():
	with gr.Column(scale=2):
	video_input = gr.File(
	label="📁 رفع فيديو",
	file_types=["video"],
	elem_id="video_input"
	)
	with gr.Column(scale=1):
	source_lang = gr.Dropdown(
	choices=list(SUPPORTED_LANGUAGES.keys()),
	value="en",
	label="🗣️ لغة الفيديو الأصلية"
	)
	target_lang = gr.Dropdown(
	choices=list(SUPPORTED_LANGUAGES.keys()),
	value="ar",
	label="🌐 لغة الترجمة"
	)
	process_btn = gr.Button("🎯 معالجة الفيديو", variant="primary")

	with gr.Row():
	error_output = gr.Textbox(label="⚠️ الأخطاء", visible=False)

	with gr.Tabs():
	with gr.TabItem("📝 النص الأصلي"):
	original_text = gr.Textbox(
	label="النص المستخرج من الفيديو",
	lines=10,
	elem_classes=["ltr"]
	)
	with gr.Row():
	with gr.Column():
	original_gender = gr.Radio(
	choices=["male", "female"],
	value="male",
	label="🧑 جنس المتحدث",
	info="اختر جنس المتحدث"
	)
	original_style = gr.Dropdown(
	choices=list(VOICE_STYLES.keys()),
	value="normal",
	label="🎭 نمط الصوت",
	info="اختر نمط الصوت المناسب"
	)
	with gr.Column():
	generate_original_audio = gr.Button("🔊 توليد الصوت", variant="secondary")
	original_audio = gr.Audio(label="الصوت", visible=True)

	with gr.TabItem("🔄 النص المترجم"):
	translated_text = gr.Textbox(
	label="النص المترجم",
	lines=10,
	elem_classes=["rtl"]
	)
	with gr.Row():
	with gr.Column():
	translated_gender = gr.Radio(
	choices=["male", "female"],
	value="male",
	label="🧑 جنس المتحدث",
	info="اختر جنس المتحدث"
	)
	translated_style = gr.Dropdown(
	choices=list(VOICE_STYLES.keys()),
	value="normal",
	label="🎭 نمط الصوت",
	info="اختر نمط الصوت المناسب"
	)
	with gr.Column():
	generate_translated_audio = gr.Button("🔊 توليد الصوت", variant="secondary")
	translated_audio = gr.Audio(label="الصوت", visible=True)

	with gr.Row():
	download_btn = gr.File(
	label="📥 تحميل المستند (Word)",
	interactive=False
	)

	def update_ui(video, src_lang, tgt_lang):
	result = process_video(video, src_lang, tgt_lang)

	original_classes = "rtl" if src_lang in RTL_LANGUAGES else "ltr"
	translated_classes = "rtl" if tgt_lang in RTL_LANGUAGES else "ltr"

	return {
	error_output: gr.update(value=result["error"], visible=bool(result["error"])),
	original_text: gr.update(value=result["original"], elem_classes=[original_classes]),
	translated_text: gr.update(value=result["translated"], elem_classes=[translated_classes]),
	download_btn: result["document"]
	}

	process_btn.click(
	fn=update_ui,
	inputs=[video_input, source_lang, target_lang],
	outputs=[error_output, original_text, translated_text, download_btn]
	)

	generate_original_audio.click(
	fn=text_to_speech,
	inputs=[original_text, source_lang, original_gender, original_style],
	outputs=[original_audio]
	)

	generate_translated_audio.click(
	fn=text_to_speech,
	inputs=[translated_text, target_lang, translated_gender, translated_style],
	outputs=[translated_audio]
	)

	return demo

	if __name__ == "__main__":
	try:
	logger.info("بدء تشغيل التطبيق")
	demo = create_ui()
	demo.launch()
	except Exception as e:
	logger.error(f"خطأ في تشغيل التطبيق: {str(e)}")