ai4bharat
/

indic-parler-tts

@@ -124,10 +124,10 @@ description_tokenizer = AutoTokenizer.from_pretrained(model.config.text_encoder.
 prompt = "Hey, how are you doing today?"
 description = "A female speaker with a British accent delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."
-input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
-prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
-generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
 audio_arr = generation.cpu().numpy().squeeze()
 sf.write("indic_tts_out.wav", audio_arr, model.config.sampling_rate)
 ```
@@ -163,10 +163,10 @@ description_tokenizer = AutoTokenizer.from_pretrained(model.config.text_encoder.
 prompt = "अरे, तुम आज कैसे हो?"
 description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."
-input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
-prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
-generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
 audio_arr = generation.cpu().numpy().squeeze()
 sf.write("indic_tts_out.wav", audio_arr, model.config.sampling_rate)
 ```
@@ -191,10 +191,10 @@ description_tokenizer = AutoTokenizer.from_pretrained(model.config.text_encoder.
 prompt = "अरे, तुम आज कैसे हो?"
 description = "Divya's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise."
-input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
-prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
-generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
 audio_arr = generation.cpu().numpy().squeeze()
 sf.write("indic_tts_out.wav", audio_arr, model.config.sampling_rate)
 ```

 prompt = "Hey, how are you doing today?"
 description = "A female speaker with a British accent delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."
+description_input_ids = description_tokenizer(description, return_tensors="pt").to(device)
+prompt_input_ids = tokenizer(prompt, return_tensors="pt").to(device)
+generation = model.generate(input_ids=description_input_ids.input_ids, attention_mask=description_input_ids.attention_mask, prompt_input_ids=prompt_input_ids.input_ids, prompt_attention_mask=prompt_input_ids.attention_mask)
 audio_arr = generation.cpu().numpy().squeeze()
 sf.write("indic_tts_out.wav", audio_arr, model.config.sampling_rate)
 ```
 prompt = "अरे, तुम आज कैसे हो?"
 description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."
+description_input_ids = description_tokenizer(description, return_tensors="pt").to(device)
+prompt_input_ids = tokenizer(prompt, return_tensors="pt").to(device)
+generation = model.generate(input_ids=description_input_ids.input_ids, attention_mask=description_input_ids.attention_mask, prompt_input_ids=prompt_input_ids.input_ids, prompt_attention_mask=prompt_input_ids.attention_mask)
 audio_arr = generation.cpu().numpy().squeeze()
 sf.write("indic_tts_out.wav", audio_arr, model.config.sampling_rate)
 ```
 prompt = "अरे, तुम आज कैसे हो?"
 description = "Divya's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise."
+description_input_ids = description_tokenizer(description, return_tensors="pt").to(device)
+prompt_input_ids = tokenizer(prompt, return_tensors="pt").to(device)
+generation = model.generate(input_ids=description_input_ids.input_ids, attention_mask=description_input_ids.attention_mask, prompt_input_ids=prompt_input_ids.input_ids, prompt_attention_mask=prompt_input_ids.attention_mask)
 audio_arr = generation.cpu().numpy().squeeze()
 sf.write("indic_tts_out.wav", audio_arr, model.config.sampling_rate)
 ```