# Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (*Sample 1 - 4*) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet. ## Sätze * **Sample #01**: Eure Schoko-Bonbons sind sagenhaft lecker! * **Sample #02**: Eure Tröte nervt. * **Sample #03**: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet. * **Sample #04**: Euer Plan hat ja toll geklappt. * *Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön." (Anfang vom "Froschkönig")* # Ground truth Originalaufnahmen aus dem "thorsten" Dataset.
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
# Griffin Lim > Details zum Model: (todo: link) > Tacotron2 + DDC: 460k Schritte trainiert
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# ParallelWaveGAN > Details: [Notebook von Olaf](https://colab.research.google.com/drive/15kJHTDTVxyIjxiZgqD1G_s5gUeVNLkfy?usp=sharing) > Tacotron2 + DDC: 360k Schritte trainiert, PWGAN Vocoder: 925k Schritte trainiert
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# WaveGrad > Tacotron2 + DDC: 460k Schritte trainiert, WaveGrad Vocoder: 510k Schritte trainiert (inkl. Noise-Schedule)
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# HifiGAN > Thanks to SanjaESC (https://github.com/SanjaESC) for training this model.
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# VocGAN > **Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell** > 200 Epochen / 284k Trainingsschritte
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
# GlowTTS / Waveglow > Details: [Github von Synesthesiam](https://github.com/rhasspy/de_larynx-thorsten) > GlowTTS trainiert für 380k und Vocoder für 500k Schritte.
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# TensorFlowTTS ## Multiband MelGAN > Thanks [Monatis](https://github.com/monatis) > Details: [Notebook von Monatis](https://colab.research.google.com/drive/1W0nSFpsz32M0OcIkY9uMOiGrLTPKVhTy?usp=sharing#scrollTo=SCbWCChVkfnn) > Taco2 Modell für 80k Schritte trainiert, Multiband MelGAN für 800k Schritte.
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# Silero models > Thanks [snakers4](https://github.com/snakers4/silero-models) > Details: [Notebook von Silero](https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts.ipynb#scrollTo=indirect-berry)
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.
# Forward Tacotron > Thanks [cschaefer26](https://github.com/as-ideas/ForwardTacotron) > Config: Forward-Tacotron, trained to 300k, alpha set to 0.8, pretrained HifiGAN vocoder
Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.