다중 화자 모델 학습 방법이 궁금합니다
#2
by
AndyPark
- opened
우선 finetuning 모델을 제공해 주셔서 감사합니다.
개인적으로는 sr을 22050hz로 finetuning을 하려다 보니, 본 모델을 활용은 못해 아쉬운 상황입니다
transcript를 speaker id 만 다르게 |0| ~ |70| 까지 증가 시켜서 모델을 학습 시키신 건가요?
학습 시간은 그럼 단일 화자를 만들때보다 70배가 걸리는건가요?
transcript 다 같게 설정한 후, speaker_id만 0부터 69까지 설정하여 모델 학습 시킨 게 맞습니다.
70배까지 길게 걸리지 않습니다. 싱글스피커보다 학습 시간이 약간 더 걸릴 뿐입니다.
명쾌한 답변 감사드립니다!
혹시 해당 모델의 학습은 Lr이 어느 시점일때 종료하셨는지 알수있을까요?
finetuning시에 Lr을 어떻게 가져가야 할지 고민중인데 경험하신 노하우가 있으신지 여쭙니다.
파인튜닝 모델이라고 해서 다르게 설정해 줄 필요 없습니다! 단순히 ‘0.0002’로 설정하시면 됩니다.
ORI-Muchim
changed discussion status to
closed