python
text-to-speech
deep-learning
speech
pytorch
tts
vocoder
tacotron
tensorflow2
tacotron2
melgan
speaker-encoder
dataset-analysis
glow-tts
multiband-melgan
gantts
-
Updated
Apr 23, 2022 - Jupyter Notebook
目前的多音字使用 pypinyin 或者 g2pM,精度有限,想做一个基于 BERT (或者 ERNIE) 多音字预测模型,简单来说就是假设某语言有 100 个多音字,每个多音字最多有 3 个发音,那么可以在 BERT 后面接 100 个 3 分类器(简单的 fc 层即可),在预测时,找到对应的分类器进行分类即可。
参考论文:
tencent_polyphone.pdf
数据可以用 https://github.com/kakaobrain/g2pM 提供的数据
进阶:多任务的 BERT
![image](https://user-images.githubusercontent.com/24568452