diff --git a/ghPages/_config.yml b/ghPages/_config.yml new file mode 100644 index 0000000..c419263 --- /dev/null +++ b/ghPages/_config.yml @@ -0,0 +1 @@ +theme: jekyll-theme-cayman \ No newline at end of file diff --git a/ghPages/audio_compare.md b/ghPages/audio_compare.md new file mode 100644 index 0000000..a892cd5 --- /dev/null +++ b/ghPages/audio_compare.md @@ -0,0 +1,184 @@ +# Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells +Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (*Sample 1 - 4*) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet. + +## Sätze +* **Sample #01**: Eure Schoko-Bonbons sind sagenhaft lecker! +* **Sample #02**: Eure Tröte nervt. +* **Sample #03**: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet. +* **Sample #04**: Euer Plan hat ja toll geklappt. +* *Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön ..." (Anfang vom "Froschkönig")* + +# Ground truth +Originalaufnahmen aus dem "thorsten" Dataset. + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
SampleTextAudio
01Eure Schoko-Bonbons sind sagenhaft lecker
02Eure Tröte nervt
03Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04Euer Plan hat ja toll geklappt.
+ +
+ + +# Griffin Lim +> Details zum Model: (todo: link) +> Tacotron2 + DDC: 460k Schritte trainiert + +# ParallelWaveGAN +> Tacotron2 + DDC: 360k Schritte trainiert, PWGAN Vocoder: 925k Schritte trainiert + +> Details: [Notebook von Olaf](https://colab.research.google.com/drive/15kJHTDTVxyIjxiZgqD1G_s5gUeVNLkfy?usp=sharing) +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
SampleTextAudio
01Eure Schoko-Bonbons sind sagenhaft lecker
02Eure Tröte nervt
03Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04Euer Plan hat ja toll geklappt.
05Anfang vom Froschkönig
+ +
+ + +# WaveGrad +> todo + +# HifiGAN +> todo + +# VocGAN +> **Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell** +> 200 Epochen / 284k Trainingsschritte + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
SampleTextAudio
01Eure Schoko-Bonbons sind sagenhaft lecker
02Eure Tröte nervt
03Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04Euer Plan hat ja toll geklappt.
+ +
+ +# GlowTTS / Waveglow +> Details: [Github von Synesthesiam](https://github.com/rhasspy/de_larynx-thorsten) + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
SampleTextAudio
01Eure Schoko-Bonbons sind sagenhaft lecker
02Eure Tröte nervt
03Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet
04Euer Plan hat ja toll geklappt.
+ +
\ No newline at end of file diff --git a/ghPages/index.md b/ghPages/index.md new file mode 100644 index 0000000..e8b548f --- /dev/null +++ b/ghPages/index.md @@ -0,0 +1,48 @@ +# Motivation + + +Eine kostenfreie, qualitativ hochwertige, deutsche TTS Stimme, die offline erzeugt werden kann sollte jedem Projekt ohne Lizenzrechtliche Probleme zur Verfügung stehen. + + + +# Egal aus welchem Bereich du kommst: +* Privates Bastelprojekt +* OpenSource/Community Projekt +* Bildung/Forschung/Wissenschaft +* Kommerzielles Unternehmen +* ... + +# Egal welcher Bereich dich interessiert: +* Smarte Sprachassistenten +* Navigationssysteme +* Smart Homes +* Sprechende Kühlschränke +* Vorlesen von Bildschirmtexten (Barrierefreiheit) +* Interaktive Robotik +* ... + +# Wer wir sind +Wir sind eine kleine motivierte Gruppe hobbymäßiger TTS-Enthusiasten die sich nach einem abgewandelten "Herr der Ringe Zitat" benannt hat - "**Fellowership of free german tts**" + +# Wo wir aktuell stehen +Wir arbeiten weiterhin daran qualitativ noch bessere Modell zu trainieren, aber den aktuellen "stable" Stand kannst Du hier anhören: +* [Es ist im Moment klarer Himmel bei 18 Grad.](https://drive.google.com/file/d/1cDIq4QG6i60WjUYNT6fr2cpEjFQIi8w5/view?usp=sharing) +* [Ich verstehe das nicht, aber ich lerne jeden Tag neue Dinge.](https://drive.google.com/file/d/1kja_2RsFt6EmC33HTB4ozJyFlvh_DTFQ/view?usp=sharing) +* [Ich bin jetzt bereit.](https://drive.google.com/file/d/1GkplGH7LMJcPDpgFJocXHCjRln_ccVFs/view?usp=sharing) +* [Bitte warte einen Moment, bis ich fertig mit dem Booten bin.](https://drive.google.com/file/d/19Td-F14n_05F-squ3bNlt2BDE-NMFaq1/view?usp=sharing) +* [Mein Name ist Mycroft und ich bin funky.](https://drive.google.com/file/d/1dbyOyE7Oy8YdAsYqQ4vz4VJjiWIyc8oV/view?usp=sharing) + + +## Vergleich einiger Vocoder +Wir experimentieren aktuell mit unterschiedlichen Konfigurationen um das beste Modell zu ermitteln. Ein Vergleich der bisherigen Ergebnisse findest Du auf dieser Seite. +> [Vergleich der unterschiedlichen Modell](./audio_compare) + +# Interessiert? +[Weitere Details, Downloads und Danksagungen findet ihr hier.](https://github.com/thorstenMueller/deep-learning-german-tts "Dataset Details und Thorsten-Modell Download") + + +--- + + +Wir wünschen euch viel Spaß und Erfolg bei der Umsetzung eurer Projekte :-) + diff --git a/ghPages/samples/sample01-gt.wav b/ghPages/samples/sample01-gt.wav new file mode 100644 index 0000000..a42e95b Binary files /dev/null and b/ghPages/samples/sample01-gt.wav differ diff --git a/ghPages/samples/sample01-pwgan.wav b/ghPages/samples/sample01-pwgan.wav new file mode 100644 index 0000000..78ccb54 Binary files /dev/null and b/ghPages/samples/sample01-pwgan.wav differ diff --git a/ghPages/samples/sample01-vocgan.wav b/ghPages/samples/sample01-vocgan.wav new file mode 100644 index 0000000..08a5fee Binary files /dev/null and b/ghPages/samples/sample01-vocgan.wav differ diff --git a/ghPages/samples/sample01-waveglow.wav b/ghPages/samples/sample01-waveglow.wav new file mode 100644 index 0000000..994a3c6 Binary files /dev/null and b/ghPages/samples/sample01-waveglow.wav differ diff --git a/ghPages/samples/sample02-gt.wav b/ghPages/samples/sample02-gt.wav new file mode 100644 index 0000000..8a7dccc Binary files /dev/null and b/ghPages/samples/sample02-gt.wav differ diff --git a/ghPages/samples/sample02-pwgan.wav b/ghPages/samples/sample02-pwgan.wav new file mode 100644 index 0000000..d25ef38 Binary files /dev/null and b/ghPages/samples/sample02-pwgan.wav differ diff --git a/ghPages/samples/sample02-vocgan.wav b/ghPages/samples/sample02-vocgan.wav new file mode 100644 index 0000000..fa1cbb4 Binary files /dev/null and b/ghPages/samples/sample02-vocgan.wav differ diff --git a/ghPages/samples/sample02-waveglow.wav b/ghPages/samples/sample02-waveglow.wav new file mode 100644 index 0000000..41165e7 Binary files /dev/null and b/ghPages/samples/sample02-waveglow.wav differ diff --git a/ghPages/samples/sample03-gt.wav b/ghPages/samples/sample03-gt.wav new file mode 100644 index 0000000..9b26b62 Binary files /dev/null and b/ghPages/samples/sample03-gt.wav differ diff --git a/ghPages/samples/sample03-pwgan.wav b/ghPages/samples/sample03-pwgan.wav new file mode 100644 index 0000000..89564c8 Binary files /dev/null and b/ghPages/samples/sample03-pwgan.wav differ diff --git a/ghPages/samples/sample03-vocgan.wav b/ghPages/samples/sample03-vocgan.wav new file mode 100644 index 0000000..25aa77f Binary files /dev/null and b/ghPages/samples/sample03-vocgan.wav differ diff --git a/ghPages/samples/sample03-waveglow.wav b/ghPages/samples/sample03-waveglow.wav new file mode 100644 index 0000000..86f551e Binary files /dev/null and b/ghPages/samples/sample03-waveglow.wav differ diff --git a/ghPages/samples/sample04-gt.wav b/ghPages/samples/sample04-gt.wav new file mode 100644 index 0000000..8cde068 Binary files /dev/null and b/ghPages/samples/sample04-gt.wav differ diff --git a/ghPages/samples/sample04-pwgan.wav b/ghPages/samples/sample04-pwgan.wav new file mode 100644 index 0000000..3e1b7a8 Binary files /dev/null and b/ghPages/samples/sample04-pwgan.wav differ diff --git a/ghPages/samples/sample04-vocgan.wav b/ghPages/samples/sample04-vocgan.wav new file mode 100644 index 0000000..d25c7e9 Binary files /dev/null and b/ghPages/samples/sample04-vocgan.wav differ diff --git a/ghPages/samples/sample04-waveglow.wav b/ghPages/samples/sample04-waveglow.wav new file mode 100644 index 0000000..0012a9f Binary files /dev/null and b/ghPages/samples/sample04-waveglow.wav differ diff --git a/ghPages/samples/sample05-pwgan.wav b/ghPages/samples/sample05-pwgan.wav new file mode 100644 index 0000000..b784510 Binary files /dev/null and b/ghPages/samples/sample05-pwgan.wav differ diff --git a/ghPages/samples/sample05-waveglow.wav b/ghPages/samples/sample05-waveglow.wav new file mode 100644 index 0000000..1a601af Binary files /dev/null and b/ghPages/samples/sample05-waveglow.wav differ