Spaces:

Mahiruoshi
/

Lovelive_Nijigasaki_VITS

Running

App Files Files Community

Mahiruoshi commited on Apr 24, 2023

Commit

6c297e8

1 Parent(s): c3497ff

Update main.py

Browse files

Files changed (1) hide show

main.py +63 -42

main.py CHANGED Viewed

@@ -45,9 +45,8 @@ def extrac(text):
             i = romajitable.to_kana(i).katakana
         i = i.replace('\n','').replace(' ','')
         #Current length of single sentence: 20
-        '''
         if len(i)>1:
-            if len(i) > 20:
                 try:
                     cur_list = re.split(r'。|！', i)
                     for i in cur_list:
@@ -59,6 +58,7 @@ def extrac(text):
                 final_list.append(i)
             '''
         final_list.append(i)
     final_list = [x for x in final_list if x != '']
     print(final_list)
     return final_list
@@ -121,7 +121,7 @@ def sle(language,text):
             return text
 def get_text(text,hps_ms):
-    text_norm = text_to_sequence(text,hps_ms.data.text_cleaners)
     if hps_ms.data.add_blank:
         text_norm = commons.intersperse(text_norm, 0)
     text_norm = torch.LongTensor(text_norm)
@@ -129,9 +129,11 @@ def get_text(text,hps_ms):
 def create_tts_fn(net_g,hps,speaker_id):
     speaker_id = int(speaker_id)
-    def tts_fn(history,is_gpt,api_key,is_audio,audiopath,repeat_time,text, language, extract, n_scale= 0.667,n_scale_w = 0.8, l_scale = 1 ):
         text = check_text(text)
         repeat_time = int(repeat_time)
         if is_gpt:
             openai.api_key = api_key
             text = chatgpt(text)
@@ -166,40 +168,56 @@ def create_tts_fn(net_g,hps,speaker_id):
             for i in b:
                 text = text.replace(i,'>')
             final_list = extrac(text.replace('“','').replace('”',''))
-            audio_fin = []
-            c = 0
-            t = datetime.timedelta(seconds=0)
-            f1 = open("subtitles.srt",'w',encoding='utf-8')
-            for sentence in final_list:
-                c +=1
-                stn_tst = get_text(sle(language,sentence),hps)
-                with torch.no_grad():
-                    x_tst = stn_tst.unsqueeze(0).to(dev)
-                    x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
-                    sid = torch.LongTensor([speaker_id]).to(dev)
-                    t1 = time.time()
-                    audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=n_scale, noise_scale_w=n_scale_w, length_scale=l_scale)[0][0,0].data.cpu().float().numpy()
-                    t2 = time.time()
-                    spending_time = "第"+str(c)+"句的推理时间为："+str(t2-t1)+"s"
-                    print(spending_time)
-                    time_start = str(t).split(".")[0] + "," + str(t.microseconds)[:3]
-                    last_time = datetime.timedelta(seconds=len(audio)/float(22050))
-                    t+=last_time
-                    time_end = str(t).split(".")[0] + "," + str(t.microseconds)[:3]
-                    print(time_end)
-                    f1.write(str(c-1)+'\n'+time_start+' --> '+time_end+'\n'+sentence+'\n\n')
-                    audio_fin.append(audio)
-            try:
-                write(audiopath + '.wav',22050,np.concatenate(audio_fin))
-                if is_audio:
-                    for i in range(repeat_time):
-                        cmd = 'ffmpeg -y -i ' +  audiopath + '.wav' + ' -ar 44100 '+ audiopath.replace('temp','temp'+str(i))
-                        os.system(cmd)
-            except:
-                pass
-            file_path = "subtitles.srt"
             return history,file_path,(hps.data.sampling_rate, np.concatenate(audio_fin))
     return tts_fn
@@ -460,7 +478,6 @@ if __name__ == '__main__':
                                 output1 = gr.Audio(label="采样率22050")
                                 with gr.Accordion(label="Setting", open=False):
                                     input2 = gr.Dropdown(label="Language", choices=lan, value="自动", interactive=True)
-                                    input3 = gr.Checkbox(value=False, label="长句切割(小说合成)")
                                     input4 = gr.Slider(minimum=0, maximum=1.0, label="更改噪声比例(noise scale)，以控制情感", value=0.6)
                                     input5 = gr.Slider(minimum=0, maximum=1.0, label="更改噪声偏差(noise scale w)，以控制音素长短", value=0.668)
                                     input6 = gr.Slider(minimum=0.1, maximum=10, label="duration", value=1)
@@ -468,17 +485,21 @@ if __name__ == '__main__':
                                     audio_input3 = gr.Dropdown(label="重复次数", choices=list(range(101)), value='0', interactive=True)
                                     api_input1 = gr.Checkbox(value=False, label="接入chatgpt")
                                     api_input2 = gr.TextArea(label="api-key",lines=1,value = '懂得都懂')
                                     output2 = gr.outputs.File(label="字幕文件：subtitles.srt")
-                                    audio_input1 = gr.Checkbox(value=False, label="修改音频路径(live2d)")
                                     audio_input2 = gr.TextArea(label="音频路径",lines=1,value = 'D:/path/to/live2d/sounds/temp.wav')
                                     input3 = gr.Checkbox(value=False, label="长句切割(小说合成)")
                                     inputxt = gr.File(label="Text")
                                     btnbook = gr.Button("小说合成")
                         btnVC.click(bot, inputs = [chatbot,input1], outputs = [chatbot]).then(
-    tts_fn, inputs=[chatbot,api_input1,api_input2,audio_input1,audio_input2,audio_input3,input1,input2,input3,input4,input5,input6], outputs=[chatbot,output2,output1]
     )
                         btnbook.click(bot, inputs = [chatbot,inputxt], outputs = [chatbot]).then(
-    tts_fn, inputs=[chatbot,api_input1,api_input2,audio_input1,audio_input2,audio_input3,inputxt,input2,input3,input4,input5,input6], outputs=[chatbot,output2,output1]
     )
                     with gr.Tab("Voice Conversion(类似sovits)"):
                         gr.Markdown("""

             i = romajitable.to_kana(i).katakana
         i = i.replace('\n','').replace(' ','')
         #Current length of single sentence: 20
         if len(i)>1:
+            if len(i) > 50:
                 try:
                     cur_list = re.split(r'。|！', i)
                     for i in cur_list:
                 final_list.append(i)
             '''
         final_list.append(i)
+        '''
     final_list = [x for x in final_list if x != '']
     print(final_list)
     return final_list
             return text
 def get_text(text,hps_ms):
+    text_norm = text_to_sequence(text,hps_ms.symbols,hps_ms.data.text_cleaners)
     if hps_ms.data.add_blank:
         text_norm = commons.intersperse(text_norm, 0)
     text_norm = torch.LongTensor(text_norm)
 def create_tts_fn(net_g,hps,speaker_id):
     speaker_id = int(speaker_id)
+    def tts_fn(is_transfer,original_speaker, target_speaker,history,is_gpt,api_key,is_audio,audiopath,repeat_time,text, language, extract, n_scale= 0.667,n_scale_w = 0.8, l_scale = 1 ):
         text = check_text(text)
         repeat_time = int(repeat_time)
+        original_speaker_id = selection(original_speaker)
+        target_speaker_id = selection(target_speaker)
         if is_gpt:
             openai.api_key = api_key
             text = chatgpt(text)
             for i in b:
                 text = text.replace(i,'>')
             final_list = extrac(text.replace('“','').replace('”',''))
+            split_list = []
+            while len(final_list) > 0:
+                split_list.append(final_list[:500])
+                final_list = final_list[500:]
+            c0 = 0
+            for lists in split_list:
+                audio_fin = []
+                t = datetime.timedelta(seconds=0)
+                c = 0
+                f1 = open(audiopath.replace('.wav',str(c0)+".srt"),'w',encoding='utf-8')
+                for sentence in lists:
+                    try:
+                        c +=1
+                        stn_tst = get_text(sle(language,sentence),hps)
+                        with torch.no_grad():
+                            x_tst = stn_tst.unsqueeze(0).to(dev)
+                            x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
+                            sid = torch.LongTensor([original_speaker_id]).to(dev)
+                            t1 = time.time()
+                            audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=n_scale, noise_scale_w=n_scale_w, length_scale=l_scale)[0][0,0].data.cpu().float().numpy()
+                            t2 = time.time()
+                            spending_time = "第"+str(c)+"句的推理时间为："+str(t2-t1)+"s"
+                            print(spending_time)
+                            time_start = str(t).split(".")[0] + "," + str(t.microseconds)[:3]
+                            last_time = datetime.timedelta(seconds=len(audio)/float(22050))
+                            t+=last_time
+                            time_end = str(t).split(".")[0] + "," + str(t.microseconds)[:3]
+                            print(time_end)
+                            f1.write(str(c-1)+'\n'+time_start+' --> '+time_end+'\n'+sentence+'\n\n')
+                        if is_transfer:
+                            with torch.no_grad():
+                                y = torch.FloatTensor(audio)
+                                y = y / max(-y.min(), y.max()) / 0.99
+                                y = y.to(dev)
+                                y = y.unsqueeze(0)
+                                spec = spectrogram_torch(y, hps.data.filter_length,
+                                                            hps.data.sampling_rate, hps.data.hop_length, hps.data.win_length,
+                                                            center=False).to(dev)
+                                spec_lengths = torch.LongTensor([spec.size(-1)]).to(dev)
+                                sid_src = torch.LongTensor([original_speaker_id]).to(dev)
+                                sid_tgt = torch.LongTensor([target_speaker_id]).to(dev)
+                                audio = net_g.voice_conversion(spec, spec_lengths, sid_src=sid_src, sid_tgt=sid_tgt)[0][
+                                    0, 0].data.cpu().float().numpy()
+                            del y, spec, spec_lengths, sid_src, sid_tgt
+                        audio_fin.append(audio)
+                    except:
+                        pass
+                write(audiopath.replace('.wav',str(c0)+'.wav'),22050,np.concatenate(audio_fin))
+                c0 += 1
+            file_path = audiopath.replace('.wav',str(c0)+".srt")
             return history,file_path,(hps.data.sampling_rate, np.concatenate(audio_fin))
     return tts_fn
                                 output1 = gr.Audio(label="采样率22050")
                                 with gr.Accordion(label="Setting", open=False):
                                     input2 = gr.Dropdown(label="Language", choices=lan, value="自动", interactive=True)
                                     input4 = gr.Slider(minimum=0, maximum=1.0, label="更改噪声比例(noise scale)，以控制情感", value=0.6)
                                     input5 = gr.Slider(minimum=0, maximum=1.0, label="更改噪声偏差(noise scale w)，以控制音素长短", value=0.668)
                                     input6 = gr.Slider(minimum=0.1, maximum=10, label="duration", value=1)
                                     audio_input3 = gr.Dropdown(label="重复次数", choices=list(range(101)), value='0', interactive=True)
                                     api_input1 = gr.Checkbox(value=False, label="接入chatgpt")
                                     api_input2 = gr.TextArea(label="api-key",lines=1,value = '懂得都懂')
+                                with gr.Accordion(label="Advanced Setting", open=False):
                                     output2 = gr.outputs.File(label="字幕文件：subtitles.srt")
+                                    audio_input1 = gr.Checkbox(value=False, label="保存路径")
                                     audio_input2 = gr.TextArea(label="音频路径",lines=1,value = 'D:/path/to/live2d/sounds/temp.wav')
                                     input3 = gr.Checkbox(value=False, label="长句切割(小说合成)")
                                     inputxt = gr.File(label="Text")
+                                    is_transfer = gr.Checkbox(value=False, label="是否声线转化")
+                                    source_speaker = gr.Dropdown(choices=idols, value=name, label="source speaker")
+                                    target_speaker = gr.Dropdown(choices=idols, value=name, label="target speaker")
                                     btnbook = gr.Button("小说合成")
                         btnVC.click(bot, inputs = [chatbot,input1], outputs = [chatbot]).then(
+    tts_fn, inputs=[is_transfer,source_speaker,target_speaker,chatbot,api_input1,api_input2,audio_input1,audio_input2,audio_input3,input1,input2,input3,input4,input5,input6], outputs=[chatbot,output2,output1]
     )
                         btnbook.click(bot, inputs = [chatbot,inputxt], outputs = [chatbot]).then(
+    tts_fn, inputs=[is_transfer,source_speaker,target_speaker,chatbot,api_input1,api_input2,audio_input1,audio_input2,audio_input3,inputxt,input2,input3,input4,input5,input6], outputs=[chatbot,output2,output1]
     )
                     with gr.Tab("Voice Conversion(类似sovits)"):
                         gr.Markdown("""