Added github page with index and sample wavs

2020-11-16 17:25:42 +01:00 · 2020-11-16 17:25:42 +01:00 · 7b27bdac2d
commit 7b27bdac2d
parent f55e16d0fc
21 changed files with 233 additions and 0 deletions
--- a/ghPages/_config.yml
+++ b/ghPages/_config.yml
@ -0,0 +1 @@
+theme: jekyll-theme-cayman
--- a/ghPages/audio_compare.md
+++ b/ghPages/audio_compare.md
@ -0,0 +1,184 @@
+# Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells
+Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (*Sample 1 - 4*) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet.
+
+## Sätze
+* **Sample #01**: Eure Schoko-Bonbons sind sagenhaft lecker!
+* **Sample #02**: Eure Tröte nervt.
+* **Sample #03**: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
+* **Sample #04**: Euer Plan hat ja toll geklappt.
+* *Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön ..." (Anfang vom "Froschkönig")*
+
+# Ground truth
+Originalaufnahmen aus dem "thorsten" Dataset.
+
+<dl>
+
+<table>
+<thead>
+  <tr>
+    <th>Sample</th>
+    <th>Text</th>
+    <th>Audio</th>
+  </tr>
+</thead>
+<tbody>
+  <tr>
+    <td>01</td>
+    <td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
+    <td><audio controls="" preload="none"><source src="samples/sample01-gt.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>02</td>
+    <td>Eure Tröte nervt</td>
+    <td><audio controls="" preload="none"><source src="samples/sample02-gt.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>03</td>
+    <td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
+    <td><audio controls="" preload="none"><source src="samples/sample03-gt.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>04</td>
+    <td>Euer Plan hat ja toll geklappt.</td>
+    <td><audio controls="" preload="none"><source src="samples/sample04-gt.wav"></audio></td>
+  </tr>
+</tbody>
+</table>
+
+</dl>
+
+
+# Griffin Lim
+> Details zum Model: (todo: link)
+> Tacotron2 + DDC: 460k Schritte trainiert
+
+# ParallelWaveGAN
+> Tacotron2 + DDC: 360k Schritte trainiert, PWGAN Vocoder: 925k Schritte trainiert
+
+> Details: [Notebook von Olaf](https://colab.research.google.com/drive/15kJHTDTVxyIjxiZgqD1G_s5gUeVNLkfy?usp=sharing)
+<dl>
+
+<table>
+<thead>
+  <tr>
+    <th>Sample</th>
+    <th>Text</th>
+    <th>Audio</th>
+  </tr>
+</thead>
+<tbody>
+  <tr>
+    <td>01</td>
+    <td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
+    <td><audio controls="" preload="none"><source src="samples/sample01-pwgan.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>02</td>
+    <td>Eure Tröte nervt</td>
+    <td><audio controls="" preload="none"><source src="samples/sample02-pwgan.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>03</td>
+    <td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
+    <td><audio controls="" preload="none"><source src="samples/sample03-pwgan.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>04</td>
+    <td>Euer Plan hat ja toll geklappt.</td>
+    <td><audio controls="" preload="none"><source src="samples/sample04-pwgan.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>05</td>
+    <td>Anfang vom Froschkönig</td>
+    <td><audio controls="" preload="none"><source src="samples/sample05-pwgan.wav"></audio></td>
+  </tr>
+</tbody>
+</table>
+
+</dl>
+
+
+# WaveGrad
+> todo
+
+# HifiGAN
+> todo
+
+# VocGAN
+> **Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell**
+> 200 Epochen / 284k Trainingsschritte
+
+<dl>
+
+<table>
+<thead>
+  <tr>
+    <th>Sample</th>
+    <th>Text</th>
+    <th>Audio</th>
+  </tr>
+</thead>
+<tbody>
+  <tr>
+    <td>01</td>
+    <td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
+    <td><audio controls="" preload="none"><source src="samples/sample01-vocgan.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>02</td>
+    <td>Eure Tröte nervt</td>
+    <td><audio controls="" preload="none"><source src="samples/sample02-vocgan.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>03</td>
+    <td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
+    <td><audio controls="" preload="none"><source src="samples/sample03-vocgan.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>04</td>
+    <td>Euer Plan hat ja toll geklappt.</td>
+    <td><audio controls="" preload="none"><source src="samples/sample04-vocgan.wav"></audio></td>
+  </tr>
+</tbody>
+</table>
+
+</dl>
+
+# GlowTTS / Waveglow
+> Details: [Github von Synesthesiam](https://github.com/rhasspy/de_larynx-thorsten)
+
+<dl>
+
+<table>
+<thead>
+  <tr>
+    <th>Sample</th>
+    <th>Text</th>
+    <th>Audio</th>
+  </tr>
+</thead>
+<tbody>
+  <tr>
+    <td>01</td>
+    <td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
+    <td><audio controls="" preload="none"><source src="samples/sample01-waveglow.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>02</td>
+    <td>Eure Tröte nervt</td>
+    <td><audio controls="" preload="none"><source src="samples/sample02-waveglow.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>03</td>
+    <td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
+    <td><audio controls="" preload="none"><source src="samples/sample03-waveglow.wav"></audio></td>
+  </tr>
+  <tr>
+    <td>04</td>
+    <td>Euer Plan hat ja toll geklappt.</td>
+    <td><audio controls="" preload="none"><source src="samples/sample04-waveglow.wav"></audio></td>
+  </tr>
+</tbody>
+</table>
+
+</dl>
--- a/ghPages/index.md
+++ b/ghPages/index.md
@ -0,0 +1,48 @@
+# Motivation
+
+<span style="font-size:1.5em;font-weight:bold">
+Eine kostenfreie, qualitativ hochwertige, deutsche TTS Stimme, die offline erzeugt werden kann sollte jedem Projekt ohne Lizenzrechtliche Probleme zur Verfügung stehen.
+</span>
+
+
+# Egal aus welchem Bereich du kommst:
+* Privates Bastelprojekt
+* OpenSource/Community Projekt
+* Bildung/Forschung/Wissenschaft
+* Kommerzielles Unternehmen
+* ...
+
+# Egal welcher Bereich dich interessiert:
+* Smarte Sprachassistenten
+* Navigationssysteme
+* Smart Homes
+* Sprechende Kühlschränke
+* Vorlesen von Bildschirmtexten (Barrierefreiheit)
+* Interaktive Robotik
+* ...
+
+# Wer wir sind
+Wir sind eine kleine motivierte Gruppe hobbymäßiger TTS-Enthusiasten die sich nach einem abgewandelten "Herr der Ringe Zitat" benannt hat - "**Fellowership of free german tts**"
+
+# Wo wir aktuell stehen
+Wir arbeiten weiterhin daran qualitativ noch bessere Modell zu trainieren, aber den aktuellen "stable" Stand kannst Du hier anhören:
+* [Es ist im Moment klarer Himmel bei 18 Grad.](https://drive.google.com/file/d/1cDIq4QG6i60WjUYNT6fr2cpEjFQIi8w5/view?usp=sharing)
+* [Ich verstehe das nicht, aber ich lerne jeden Tag neue Dinge.](https://drive.google.com/file/d/1kja_2RsFt6EmC33HTB4ozJyFlvh_DTFQ/view?usp=sharing)
+* [Ich bin jetzt bereit.](https://drive.google.com/file/d/1GkplGH7LMJcPDpgFJocXHCjRln_ccVFs/view?usp=sharing)
+* [Bitte warte einen Moment, bis ich fertig mit dem Booten bin.](https://drive.google.com/file/d/19Td-F14n_05F-squ3bNlt2BDE-NMFaq1/view?usp=sharing)
+* [Mein Name ist Mycroft und ich bin funky.](https://drive.google.com/file/d/1dbyOyE7Oy8YdAsYqQ4vz4VJjiWIyc8oV/view?usp=sharing)
+
+
+## Vergleich einiger Vocoder
+Wir experimentieren aktuell mit unterschiedlichen Konfigurationen um das beste Modell zu ermitteln. Ein Vergleich der bisherigen Ergebnisse findest Du auf dieser Seite. 
+> [Vergleich der unterschiedlichen Modell](./audio_compare)
+
+# Interessiert?
+[Weitere Details, Downloads und Danksagungen findet ihr hier.](https://github.com/thorstenMueller/deep-learning-german-tts "Dataset Details und Thorsten-Modell Download")
+
+
+---
+
+<span style="font-size:1.5em;font-weight:bold">
+Wir wünschen euch viel Spaß und Erfolg bei der Umsetzung eurer Projekte :-)
+</span>
--- a/ghPages/samples/sample01-gt.wav
+++ b/ghPages/samples/sample01-gt.wav
--- a/ghPages/samples/sample01-pwgan.wav
+++ b/ghPages/samples/sample01-pwgan.wav
--- a/ghPages/samples/sample01-vocgan.wav
+++ b/ghPages/samples/sample01-vocgan.wav
--- a/ghPages/samples/sample01-waveglow.wav
+++ b/ghPages/samples/sample01-waveglow.wav
--- a/ghPages/samples/sample02-gt.wav
+++ b/ghPages/samples/sample02-gt.wav
--- a/ghPages/samples/sample02-pwgan.wav
+++ b/ghPages/samples/sample02-pwgan.wav
--- a/ghPages/samples/sample02-vocgan.wav
+++ b/ghPages/samples/sample02-vocgan.wav
--- a/ghPages/samples/sample02-waveglow.wav
+++ b/ghPages/samples/sample02-waveglow.wav
--- a/ghPages/samples/sample03-gt.wav
+++ b/ghPages/samples/sample03-gt.wav
--- a/ghPages/samples/sample03-pwgan.wav
+++ b/ghPages/samples/sample03-pwgan.wav
--- a/ghPages/samples/sample03-vocgan.wav
+++ b/ghPages/samples/sample03-vocgan.wav
--- a/ghPages/samples/sample03-waveglow.wav
+++ b/ghPages/samples/sample03-waveglow.wav
--- a/ghPages/samples/sample04-gt.wav
+++ b/ghPages/samples/sample04-gt.wav
--- a/ghPages/samples/sample04-pwgan.wav
+++ b/ghPages/samples/sample04-pwgan.wav
--- a/ghPages/samples/sample04-vocgan.wav
+++ b/ghPages/samples/sample04-vocgan.wav
--- a/ghPages/samples/sample04-waveglow.wav
+++ b/ghPages/samples/sample04-waveglow.wav
--- a/ghPages/samples/sample05-pwgan.wav
+++ b/ghPages/samples/sample05-pwgan.wav
--- a/ghPages/samples/sample05-waveglow.wav
+++ b/ghPages/samples/sample05-waveglow.wav