# Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells
Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (*Sample 1 - 4*) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet.
## Sätze
* **Sample #01**: Eure Schoko-Bonbons sind sagenhaft lecker!
* **Sample #02**: Eure Tröte nervt.
* **Sample #03**: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
* **Sample #04**: Euer Plan hat ja toll geklappt.
* *Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön." (Anfang vom "Froschkönig")*
# Ground truth
Originalaufnahmen aus dem "thorsten" Dataset.
Sample
Text
Audio
01
Eure Schoko-Bonbons sind sagenhaft lecker
02
Eure Tröte nervt
03
Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04
Euer Plan hat ja toll geklappt.
05
In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# HifiGAN
> Thanks to SanjaESC (https://github.com/SanjaESC) for training this model.
Sample
Text
Audio
01
Eure Schoko-Bonbons sind sagenhaft lecker
02
Eure Tröte nervt
03
Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04
Euer Plan hat ja toll geklappt.
05
In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# VocGAN
> **Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell**
> 200 Epochen / 284k Trainingsschritte
Sample
Text
Audio
01
Eure Schoko-Bonbons sind sagenhaft lecker
02
Eure Tröte nervt
03
Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04
Euer Plan hat ja toll geklappt.
# GlowTTS / Waveglow
> Details: [Github von Synesthesiam](https://github.com/rhasspy/de_larynx-thorsten)
> GlowTTS trainiert für 380k und Vocoder für 500k Schritte.
Sample
Text
Audio
01
Eure Schoko-Bonbons sind sagenhaft lecker
02
Eure Tröte nervt
03
Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04
Euer Plan hat ja toll geklappt.
05
In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# TensorFlowTTS
## Multiband MelGAN
> Thanks [Monatis](https://github.com/monatis)
> Details: [Notebook von Monatis](https://colab.research.google.com/drive/1W0nSFpsz32M0OcIkY9uMOiGrLTPKVhTy?usp=sharing#scrollTo=SCbWCChVkfnn)
> Taco2 Modell für 80k Schritte trainiert, Multiband MelGAN für 800k Schritte.
Sample
Text
Audio
01
Eure Schoko-Bonbons sind sagenhaft lecker
02
Eure Tröte nervt
03
Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04
Euer Plan hat ja toll geklappt.
05
In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.