Spaces:

Futuresony
/

Speech-recognition

Sleeping

Speech-recognition / app.py(bad)

Rename app.py to app.py(bad)

6e9ff4f verified about 1 month ago

1.15 kB

	import gradio as gr
	from asr import transcribe_audio # Import your ASR function
	from lid import detect_language # Import your Language Detection function
	from tts import synthesize # Import the correct TTS function

	def process_audio(audio_data):
	# Step 1: Perform ASR (Audio-to-Text)
	transcription = transcribe_audio(audio_data)

	# Step 2: Detect language
	language = detect_language(audio_data)

	# Step 3: Generate Text Response based on ASR result (Future model generation)
	# Replace this with your model inference logic
	generated_text = f"Detected Language: {language}\n\nTranscription: {transcription}"

	# Step 4: Convert generated text into speech using TTS
	speech_output, _ = synthesize(text=generated_text, lang=language, speed=1.0)

	return generated_text, speech_output

	# Define the Gradio Interface
	interface = gr.Interface(
	fn=process_audio,
	inputs=gr.Audio(type="numpy"), # Removed 'source' argument and kept 'type'
	outputs=[gr.Textbox(label="Generated Text"), gr.Audio(label="Generated Speech")],
	live=True
	)

	if __name__ == "__main__":
	interface.launch()