不同语言的底模是否大幅影响模型的发音？ #102

mikotorz · 2023-03-29T05:32:08Z

mikotorz
Mar 29, 2023

使用版本为4.0v1，目前数据集为112个60秒的纯人声数据，基本上都是日语，Epoch到了1729，step为48400。

现阶段推理后除了高音的缺频外并无明显质量问题，但在日语的个别发音中会偶尔出错，比如将「ki」读为「ji」、或「hi」无法正常发音的情况十分多见，但使用同一文件的时候能正确读出的情况也并不少。

因为未能找到合适的底模，所以用了“通用“（似乎仅为中文用，并不包括日语）的进行训练。step在初期10000之前上述情况并不明显，似乎是随着训练的进行越来越严重。

目前能想到的原因：

望得到解答。

fatinghenji · 2023-03-31T15:58:01Z

请问你是在哪里寻找底模的呢？

1 reply

Hugging Face上搜关键字so-vits-svc就会有