9.1 KiB
Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells
Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (Sample 1 - 4) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet.
Sätze
- Sample #01: Eure Schoko-Bonbons sind sagenhaft lecker!
- Sample #02: Eure Tröte nervt.
- Sample #03: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
- Sample #04: Euer Plan hat ja toll geklappt.
- Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön." (Anfang vom "Froschkönig")
Ground truth
Originalaufnahmen aus dem "thorsten" Dataset.
Sample | Text | Audio |
---|---|---|
01 | Eure Schoko-Bonbons sind sagenhaft lecker | |
02 | Eure Tröte nervt | |
03 | Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet | |
04 | Euer Plan hat ja toll geklappt. |
Griffin Lim
Details zum Model: (todo: link)
Tacotron2 + DDC: 460k Schritte trainiert
Sample | Text | Audio |
---|---|---|
01 | Eure Schoko-Bonbons sind sagenhaft lecker | |
02 | Eure Tröte nervt | |
03 | Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet | |
04 | Euer Plan hat ja toll geklappt. | |
05 | In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön. |
ParallelWaveGAN
Details: Notebook von Olaf
Tacotron2 + DDC: 360k Schritte trainiert, PWGAN Vocoder: 925k Schritte trainiert
Sample | Text | Audio |
---|---|---|
01 | Eure Schoko-Bonbons sind sagenhaft lecker | |
02 | Eure Tröte nervt | |
03 | Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet | |
04 | Euer Plan hat ja toll geklappt. | |
05 | In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön. |
WaveGrad
Tacotron2 + DDC: 460k Schritte trainiert, WaveGrad Vocoder: 510k Schritte trainiert (inkl. Noise-Schedule)
Sample | Text | Audio |
---|---|---|
01 | Eure Schoko-Bonbons sind sagenhaft lecker | |
02 | Eure Tröte nervt | |
03 | Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet | |
04 | Euer Plan hat ja toll geklappt. | |
05 | In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön. |
HifiGAN
todo
VocGAN
Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell
200 Epochen / 284k Trainingsschritte
Sample | Text | Audio |
---|---|---|
01 | Eure Schoko-Bonbons sind sagenhaft lecker | |
02 | Eure Tröte nervt | |
03 | Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet | |
04 | Euer Plan hat ja toll geklappt. |
GlowTTS / Waveglow
Details: Github von Synesthesiam GlowTTS trainiert für 380k und Vocoder für 500k Schritte.
Sample | Text | Audio |
---|---|---|
01 | Eure Schoko-Bonbons sind sagenhaft lecker | |
02 | Eure Tröte nervt | |
03 | Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet | |
04 | Euer Plan hat ja toll geklappt. | |
05 | In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön. |
TensorFlowTTS
Multiband MelGAN
Thanks Monatis
Details: Notebook von Monatis
Taco2 Modell für 80k Schritte trainiert, Multiband MelGAN für 800k Schritte.
Sample | Text | Audio |
---|---|---|
01 | Eure Schoko-Bonbons sind sagenhaft lecker | |
02 | Eure Tröte nervt | |
03 | Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet | |
04 | Euer Plan hat ja toll geklappt. | |
05 | In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön. |