magic-8-ball

Running on Zero

App Files Files Community

freddyaboulton HF staff commited on Aug 1

Commit

ee4aecd

•

1 Parent(s): 72c65b6

for loop

Browse files

Files changed (1) hide show

app.py +22 -23

app.py CHANGED Viewed

@@ -29,10 +29,6 @@ model = ParlerTTSForConditionalGeneration.from_pretrained(
     jenny_repo_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
 ).to(device)
-model = ParlerTTSForConditionalGeneration.from_pretrained(
-    repo_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
-).to(device)
 client = InferenceClient()
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
@@ -213,6 +209,7 @@ def generate_base(subject, setting, ):
     response = client.chat_completion(messages, max_tokens=2048, seed=random.randint(1, 5000))
     gr.Info("Story Generated", duration=3)
     story = response.choices[0].message.content
     model_input = story.replace("\n", " ").strip()
     model_input = nltk.sent_tokenize(model_input)
@@ -221,29 +218,31 @@ def generate_base(subject, setting, ):
     play_steps = int(frame_rate * play_steps_in_s)
     streamer = ParlerTTSStreamer(model, device=device, play_steps=play_steps)
-    description = "A female speaker with a calm, warm, monotone voice delivers her words at a normal pace confined space with very clear audio."
     inputs = tokenizer(description, return_tensors="pt").to(device)
-    prompt = tokenizer(story, return_tensors="pt").to(device)
-    generation_kwargs = dict(
-        input_ids=inputs.input_ids,
-        prompt_input_ids=prompt.input_ids,
-        streamer=streamer,
-        do_sample=True,
-        temperature=1.0,
-        min_new_tokens=10,
-    )
-    set_seed(SEED)
-    thread = Thread(target=model.generate, kwargs=generation_kwargs)
-    thread.start()
-    yield story, None
-    gr.Info("Reading story", duration=3)
-    for new_audio in streamer:
-        print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds")
-        yield story, numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 with gr.Blocks() as block:

     jenny_repo_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
 ).to(device)
 client = InferenceClient()
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
     response = client.chat_completion(messages, max_tokens=2048, seed=random.randint(1, 5000))
     gr.Info("Story Generated", duration=3)
     story = response.choices[0].message.content
+    yield story, None
     model_input = story.replace("\n", " ").strip()
     model_input = nltk.sent_tokenize(model_input)
     play_steps = int(frame_rate * play_steps_in_s)
     streamer = ParlerTTSStreamer(model, device=device, play_steps=play_steps)
+    description = "Jenny speaks at an average pace with a calm delivery in a very confined sounding environment with clear audio quality."
     inputs = tokenizer(description, return_tensors="pt").to(device)
+    gr.Info("Reading story", duration=3)
+    for sentence in model_input:
+        prompt = tokenizer(sentence, return_tensors="pt").to(device)
+        generation_kwargs = dict(
+            input_ids=inputs.input_ids,
+            prompt_input_ids=prompt.input_ids,
+            streamer=streamer,
+            do_sample=True,
+            temperature=1.0,
+            min_new_tokens=10,
+        )
+        set_seed(SEED)
+        thread = Thread(target=model.generate, kwargs=generation_kwargs)
+        thread.start()
+        for new_audio in streamer:
+            print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds")
+            yield story, numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 with gr.Blocks() as block: