Thorsten-Voice/docs/audio_compare.md
2021-01-23 18:15:56 +01:00

10 KiB

Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells

Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (Sample 1 - 4) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet.

Sätze

  • Sample #01: Eure Schoko-Bonbons sind sagenhaft lecker!
  • Sample #02: Eure Tröte nervt.
  • Sample #03: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
  • Sample #04: Euer Plan hat ja toll geklappt.
  • Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön." (Anfang vom "Froschkönig")

Ground truth

Originalaufnahmen aus dem "thorsten" Dataset.

Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.

Griffin Lim

Details zum Model: (todo: link)
Tacotron2 + DDC: 460k Schritte trainiert

Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.

ParallelWaveGAN

Details: Notebook von Olaf
Tacotron2 + DDC: 360k Schritte trainiert, PWGAN Vocoder: 925k Schritte trainiert

Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.

WaveGrad

Tacotron2 + DDC: 460k Schritte trainiert, WaveGrad Vocoder: 510k Schritte trainiert (inkl. Noise-Schedule)

Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.

HifiGAN

Thanks to SanjaESC (https://github.com/SanjaESC) for training this model.

Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.

VocGAN

Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell
200 Epochen / 284k Trainingsschritte

Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.

GlowTTS / Waveglow

Details: Github von Synesthesiam GlowTTS trainiert für 380k und Vocoder für 500k Schritte.

Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.

TensorFlowTTS

Multiband MelGAN

Thanks Monatis
Details: Notebook von Monatis
Taco2 Modell für 80k Schritte trainiert, Multiband MelGAN für 800k Schritte.

Sample Text Audio
01 Eure Schoko-Bonbons sind sagenhaft lecker
02 Eure Tröte nervt
03 Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04 Euer Plan hat ja toll geklappt.
05 In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön.