2020-11-16 17:25:42 +01:00
# Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells
Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (*Sample 1 - 4*) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet.
## Sätze
* **Sample #01 **: Eure Schoko-Bonbons sind sagenhaft lecker!
* **Sample #02 **: Eure Tröte nervt.
* **Sample #03 **: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
* **Sample #04 **: Euer Plan hat ja toll geklappt.
2020-11-17 21:53:08 +01:00
* *Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön." (Anfang vom "Froschkönig")*
2020-11-16 17:25:42 +01:00
# Ground truth
Originalaufnahmen aus dem "thorsten" Dataset.
< dl >
< table >
< thead >
< tr >
< th > Sample< / th >
< th > Text< / th >
< th > Audio< / th >
< / tr >
< / thead >
< tbody >
< tr >
< td > 01< / td >
< td > Eure Schoko-Bonbons sind sagenhaft lecker< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample01-gt.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 02< / td >
< td > Eure Tröte nervt< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample02-gt.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 03< / td >
< td > Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample03-gt.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 04< / td >
< td > Euer Plan hat ja toll geklappt.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample04-gt.wav" > < / audio > < / td >
< / tr >
< / tbody >
< / table >
< / dl >
# Griffin Lim
2020-12-02 12:14:16 +01:00
> Details zum Model: (todo: link)
2020-11-16 17:25:42 +01:00
> Tacotron2 + DDC: 460k Schritte trainiert
2020-11-21 10:08:08 +01:00
< dl >
< table >
< thead >
< tr >
< th > Sample< / th >
< th > Text< / th >
< th > Audio< / th >
< / tr >
< / thead >
< tbody >
< tr >
< td > 01< / td >
< td > Eure Schoko-Bonbons sind sagenhaft lecker< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample01-griffin-lim.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 02< / td >
< td > Eure Tröte nervt< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample02-griffin-lim.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 03< / td >
< td > Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample03-griffin-lim.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 04< / td >
< td > Euer Plan hat ja toll geklappt.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample04-griffin-lim.wav" > < / audio > < / td >
< / tr >
2020-11-21 10:19:13 +01:00
< tr >
< td > 05< / td >
< td > In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample05-griffin-lim.wav" > < / audio > < / td >
< / tr >
2020-11-21 10:08:08 +01:00
< / tbody >
< / table >
< / dl >
2020-11-16 17:25:42 +01:00
# ParallelWaveGAN
2020-12-02 12:14:16 +01:00
> Details: [Notebook von Olaf](https://colab.research.google.com/drive/15kJHTDTVxyIjxiZgqD1G_s5gUeVNLkfy?usp=sharing)
2020-11-16 17:25:42 +01:00
> Tacotron2 + DDC: 360k Schritte trainiert, PWGAN Vocoder: 925k Schritte trainiert
< dl >
< table >
< thead >
< tr >
< th > Sample< / th >
< th > Text< / th >
< th > Audio< / th >
< / tr >
< / thead >
< tbody >
< tr >
< td > 01< / td >
< td > Eure Schoko-Bonbons sind sagenhaft lecker< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample01-pwgan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 02< / td >
< td > Eure Tröte nervt< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample02-pwgan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 03< / td >
< td > Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample03-pwgan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 04< / td >
< td > Euer Plan hat ja toll geklappt.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample04-pwgan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 05< / td >
2020-11-17 21:53:08 +01:00
< td > In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.< / td >
2020-11-16 17:25:42 +01:00
< td > < audio controls = "" preload = "none" > < source src = "samples/sample05-pwgan.wav" > < / audio > < / td >
< / tr >
< / tbody >
< / table >
< / dl >
# WaveGrad
2020-12-14 17:53:32 +01:00
> Tacotron2 + DDC: 460k Schritte trainiert, WaveGrad Vocoder: 510k Schritte trainiert (inkl. Noise-Schedule)
< dl >
< table >
< thead >
< tr >
< th > Sample< / th >
< th > Text< / th >
< th > Audio< / th >
< / tr >
< / thead >
< tbody >
< tr >
< td > 01< / td >
< td > Eure Schoko-Bonbons sind sagenhaft lecker< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample01-wavegrad.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 02< / td >
< td > Eure Tröte nervt< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample02-wavegrad.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 03< / td >
< td > Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample03-wavegrad.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 04< / td >
< td > Euer Plan hat ja toll geklappt.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample04-wavegrad.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 05< / td >
< td > In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample05-wavegrad.wav" > < / audio > < / td >
< / tr >
< / tbody >
< / table >
< / dl >
2020-11-16 17:25:42 +01:00
# HifiGAN
2021-01-23 18:15:56 +01:00
> Thanks to SanjaESC (https://github.com/SanjaESC) for training this model.
< dl >
< table >
< thead >
< tr >
< th > Sample< / th >
< th > Text< / th >
< th > Audio< / th >
< / tr >
< / thead >
< tbody >
< tr >
< td > 01< / td >
< td > Eure Schoko-Bonbons sind sagenhaft lecker< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample01-hifigan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 02< / td >
< td > Eure Tröte nervt< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample02-hifigan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 03< / td >
< td > Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample03-hifigan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 04< / td >
< td > Euer Plan hat ja toll geklappt.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample04-hifigan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 05< / td >
< td > In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample05-hifigan.wav" > < / audio > < / td >
< / tr >
< / tbody >
< / table >
< / dl >
2020-11-16 17:25:42 +01:00
# VocGAN
2020-12-02 12:14:16 +01:00
> **Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell**
2020-11-16 17:25:42 +01:00
> 200 Epochen / 284k Trainingsschritte
< dl >
< table >
< thead >
< tr >
< th > Sample< / th >
< th > Text< / th >
< th > Audio< / th >
< / tr >
< / thead >
< tbody >
< tr >
< td > 01< / td >
< td > Eure Schoko-Bonbons sind sagenhaft lecker< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample01-vocgan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 02< / td >
< td > Eure Tröte nervt< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample02-vocgan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 03< / td >
< td > Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample03-vocgan.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 04< / td >
< td > Euer Plan hat ja toll geklappt.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample04-vocgan.wav" > < / audio > < / td >
< / tr >
< / tbody >
< / table >
< / dl >
# GlowTTS / Waveglow
> Details: [Github von Synesthesiam](https://github.com/rhasspy/de_larynx-thorsten)
2020-11-17 22:04:09 +01:00
> GlowTTS trainiert für 380k und Vocoder für 500k Schritte.
2020-11-16 17:25:42 +01:00
< dl >
< table >
< thead >
< tr >
< th > Sample< / th >
< th > Text< / th >
< th > Audio< / th >
< / tr >
< / thead >
< tbody >
< tr >
< td > 01< / td >
< td > Eure Schoko-Bonbons sind sagenhaft lecker< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample01-waveglow.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 02< / td >
< td > Eure Tröte nervt< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample02-waveglow.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 03< / td >
< td > Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample03-waveglow.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 04< / td >
< td > Euer Plan hat ja toll geklappt.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample04-waveglow.wav" > < / audio > < / td >
< / tr >
2020-11-17 21:53:08 +01:00
< tr >
< td > 05< / td >
< td > In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample05-waveglow.wav" > < / audio > < / td >
< / tr >
2020-11-16 17:25:42 +01:00
< / tbody >
< / table >
2020-12-02 12:14:16 +01:00
< / dl >
2020-12-02 12:23:20 +01:00
# TensorFlowTTS
## Multiband MelGAN
2020-12-02 12:14:16 +01:00
> Thanks [Monatis](https://github.com/monatis)
> Details: [Notebook von Monatis](https://colab.research.google.com/drive/1W0nSFpsz32M0OcIkY9uMOiGrLTPKVhTy?usp=sharing#scrollTo=SCbWCChVkfnn)
> Taco2 Modell für 80k Schritte trainiert, Multiband MelGAN für 800k Schritte.
< dl >
< table >
< thead >
< tr >
< th > Sample< / th >
< th > Text< / th >
< th > Audio< / th >
< / tr >
< / thead >
< tbody >
< tr >
< td > 01< / td >
< td > Eure Schoko-Bonbons sind sagenhaft lecker< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample01-TensorFlowTTS.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 02< / td >
< td > Eure Tröte nervt< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample02-TensorFlowTTS.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 03< / td >
< td > Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample03-TensorFlowTTS.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 04< / td >
< td > Euer Plan hat ja toll geklappt.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample04-TensorFlowTTS.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 05< / td >
< td > In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample05-TensorFlowTTS.wav" > < / audio > < / td >
< / tr >
< / tbody >
< / table >
2021-04-11 11:04:20 +02:00
< / dl >
# Silero models
> Thanks [snakers4](https://github.com/snakers4/silero-models)
> Details: [Notebook von Silero](https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts.ipynb#scrollTo=indirect-berry)
< dl >
< table >
< thead >
< tr >
< th > Sample< / th >
< th > Text< / th >
< th > Audio< / th >
< / tr >
< / thead >
< tbody >
< tr >
< td > 01< / td >
< td > Eure Schoko-Bonbons sind sagenhaft lecker< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample01-silero.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 02< / td >
< td > Eure Tröte nervt< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample02-silero.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 03< / td >
< td > Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample03-silero.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 04< / td >
< td > Euer Plan hat ja toll geklappt.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample04-silero.wav" > < / audio > < / td >
< / tr >
< tr >
< td > 05< / td >
< td > In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.< / td >
< td > < audio controls = "" preload = "none" > < source src = "samples/sample05-silero.wav" > < / audio > < / td >
< / tr >
< / tbody >
< / table >
2020-11-16 17:25:42 +01:00
< / dl >