다중 화자 모델 학습 방법이 궁금합니다

by AndyPark - opened Sep 15, 2023

Sep 15, 2023

우선 finetuning 모델을 제공해 주셔서 감사합니다.
개인적으로는 sr을 22050hz로 finetuning을 하려다 보니, 본 모델을 활용은 못해 아쉬운 상황입니다

transcript를 speaker id 만 다르게 |0| ~ |70| 까지 증가 시켜서 모델을 학습 시키신 건가요?
학습 시간은 그럼 단일 화자를 만들때보다 70배가 걸리는건가요?

Owner Sep 16, 2023

Sep 16, 2023

@AndyPark nuwave2 를 이용하여 44100으로 Upsampling이 가능합니다.

Sep 18, 2023

명쾌한 답변 감사드립니다!
혹시 해당 모델의 학습은 Lr이 어느 시점일때 종료하셨는지 알수있을까요?
finetuning시에 Lr을 어떻게 가져가야 할지 고민중인데 경험하신 노하우가 있으신지 여쭙니다.

Owner Sep 18, 2023

파인튜닝 모델이라고 해서 다르게 설정해 줄 필요 없습니다! 단순히 ‘0.0002’로 설정하시면 됩니다.

ORI-Muchim changed discussion status to closed Jun 3, 2024

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment