# Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (*Sample 1 - 4*) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet. ## Sätze * **Sample #01**: Eure Schoko-Bonbons sind sagenhaft lecker! * **Sample #02**: Eure Tröte nervt. * **Sample #03**: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet. * **Sample #04**: Euer Plan hat ja toll geklappt. * *Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön." (Anfang vom "Froschkönig")* # Ground truth Originalaufnahmen aus dem "thorsten" Dataset.

Sample	Text	Audio
01	Eure Schoko-Bonbons sind sagenhaft lecker
02	Eure Tröte nervt
03	Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04	Euer Plan hat ja toll geklappt.

# Griffin Lim > Details zum Model: (todo: link) > Tacotron2 + DDC: 460k Schritte trainiert

Sample	Text	Audio
01	Eure Schoko-Bonbons sind sagenhaft lecker
02	Eure Tröte nervt
03	Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04	Euer Plan hat ja toll geklappt.
05	In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.

# ParallelWaveGAN > Details: [Notebook von Olaf](https://colab.research.google.com/drive/15kJHTDTVxyIjxiZgqD1G_s5gUeVNLkfy?usp=sharing) > Tacotron2 + DDC: 360k Schritte trainiert, PWGAN Vocoder: 925k Schritte trainiert

Sample	Text	Audio
01	Eure Schoko-Bonbons sind sagenhaft lecker
02	Eure Tröte nervt
03	Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04	Euer Plan hat ja toll geklappt.
05	In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.

# WaveGrad > Tacotron2 + DDC: 460k Schritte trainiert, WaveGrad Vocoder: 510k Schritte trainiert (inkl. Noise-Schedule)

Sample	Text	Audio
01	Eure Schoko-Bonbons sind sagenhaft lecker
02	Eure Tröte nervt
03	Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04	Euer Plan hat ja toll geklappt.
05	In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.

# HifiGAN > todo # VocGAN > **Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell** > 200 Epochen / 284k Trainingsschritte

Sample	Text	Audio
01	Eure Schoko-Bonbons sind sagenhaft lecker
02	Eure Tröte nervt
03	Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04	Euer Plan hat ja toll geklappt.

# GlowTTS / Waveglow > Details: [Github von Synesthesiam](https://github.com/rhasspy/de_larynx-thorsten) > GlowTTS trainiert für 380k und Vocoder für 500k Schritte.

Sample	Text	Audio
01	Eure Schoko-Bonbons sind sagenhaft lecker
02	Eure Tröte nervt
03	Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04	Euer Plan hat ja toll geklappt.
05	In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.

# TensorFlowTTS ## Multiband MelGAN > Thanks [Monatis](https://github.com/monatis) > Details: [Notebook von Monatis](https://colab.research.google.com/drive/1W0nSFpsz32M0OcIkY9uMOiGrLTPKVhTy?usp=sharing#scrollTo=SCbWCChVkfnn) > Taco2 Modell für 80k Schritte trainiert, Multiband MelGAN für 800k Schritte.

Sample	Text	Audio
01	Eure Schoko-Bonbons sind sagenhaft lecker
02	Eure Tröte nervt
03	Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04	Euer Plan hat ja toll geklappt.
05	In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.