update readme
Browse files
README.md
CHANGED
@@ -40,23 +40,27 @@ Usage example:
|
|
40 |
from transformers import VitsModel, AutoTokenizer, set_seed
|
41 |
import torch
|
42 |
import scipy
|
43 |
-
|
|
|
|
|
|
|
|
|
|
|
44 |
|
45 |
# load model
|
46 |
model_name = "utrobinmv/tts_ru_free_hf_vits_low_multispeaker"
|
47 |
|
48 |
-
model = VitsModel.from_pretrained(model_name)
|
49 |
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
50 |
model.eval()
|
51 |
|
|
|
|
|
52 |
# load accentizer
|
53 |
accentizer = RUAccent()
|
54 |
-
accentizer.load(omograph_model_size='turbo', use_dictionary=True)
|
55 |
-
|
56 |
-
set_seed(555) # make deterministic
|
57 |
-
|
58 |
-
speaker = 0 # 0-woman, 1-man
|
59 |
|
|
|
60 |
text = """Ночью двадцать третьего июня начал извергаться самый высокий
|
61 |
действующий вулкан в Евразии - Кл+ючевской. Об этом сообщила руководитель
|
62 |
Камчатской группы реагирования на вулканические извержения, ведущий
|
@@ -78,13 +82,12 @@ print(text)
|
|
78 |
# ни насел+ению, ни ави+ации » поясн+ила тасс госпож+а г+ирина.
|
79 |
|
80 |
inputs = tokenizer(text, return_tensors="pt")
|
81 |
-
inputs['speaker_id'] = speaker
|
82 |
|
83 |
with torch.no_grad():
|
84 |
-
output = model(**inputs).waveform
|
85 |
|
86 |
scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
|
87 |
-
data=output[0]
|
88 |
```
|
89 |
|
90 |
|
|
|
40 |
from transformers import VitsModel, AutoTokenizer, set_seed
|
41 |
import torch
|
42 |
import scipy
|
43 |
+
|
44 |
+
device = 'cuda' # 'cpu' or 'cuda'
|
45 |
+
|
46 |
+
speaker = 0 # 0-woman, 1-man
|
47 |
+
|
48 |
+
set_seed(555) # make deterministic
|
49 |
|
50 |
# load model
|
51 |
model_name = "utrobinmv/tts_ru_free_hf_vits_low_multispeaker"
|
52 |
|
53 |
+
model = VitsModel.from_pretrained(model_name).to(device)
|
54 |
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
55 |
model.eval()
|
56 |
|
57 |
+
from ruaccent import RUAccent
|
58 |
+
|
59 |
# load accentizer
|
60 |
accentizer = RUAccent()
|
61 |
+
accentizer.load(omograph_model_size='turbo', use_dictionary=True, device=device)
|
|
|
|
|
|
|
|
|
62 |
|
63 |
+
# text
|
64 |
text = """Ночью двадцать третьего июня начал извергаться самый высокий
|
65 |
действующий вулкан в Евразии - Кл+ючевской. Об этом сообщила руководитель
|
66 |
Камчатской группы реагирования на вулканические извержения, ведущий
|
|
|
82 |
# ни насел+ению, ни ави+ации » поясн+ила тасс госпож+а г+ирина.
|
83 |
|
84 |
inputs = tokenizer(text, return_tensors="pt")
|
|
|
85 |
|
86 |
with torch.no_grad():
|
87 |
+
output = model(**inputs.to(device), speaker_id=speaker).waveform.detach().cpu().numpy()
|
88 |
|
89 |
scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
|
90 |
+
data=output[0])
|
91 |
```
|
92 |
|
93 |
|