Added github page with index and sample wavs

This commit is contained in:
Thorsten Mueller 2020-11-16 17:25:42 +01:00
parent f55e16d0fc
commit 7b27bdac2d
21 changed files with 233 additions and 0 deletions

1
ghPages/_config.yml Normal file
View File

@ -0,0 +1 @@
theme: jekyll-theme-cayman

184
ghPages/audio_compare.md Normal file
View File

@ -0,0 +1,184 @@
# Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells
Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (*Sample 1 - 4*) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet.
## Sätze
* **Sample #01**: Eure Schoko-Bonbons sind sagenhaft lecker!
* **Sample #02**: Eure Tröte nervt.
* **Sample #03**: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
* **Sample #04**: Euer Plan hat ja toll geklappt.
* *Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön ..." (Anfang vom "Froschkönig")*
# Ground truth
Originalaufnahmen aus dem "thorsten" Dataset.
<dl>
<table>
<thead>
<tr>
<th>Sample</th>
<th>Text</th>
<th>Audio</th>
</tr>
</thead>
<tbody>
<tr>
<td>01</td>
<td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
<td><audio controls="" preload="none"><source src="samples/sample01-gt.wav"></audio></td>
</tr>
<tr>
<td>02</td>
<td>Eure Tröte nervt</td>
<td><audio controls="" preload="none"><source src="samples/sample02-gt.wav"></audio></td>
</tr>
<tr>
<td>03</td>
<td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
<td><audio controls="" preload="none"><source src="samples/sample03-gt.wav"></audio></td>
</tr>
<tr>
<td>04</td>
<td>Euer Plan hat ja toll geklappt.</td>
<td><audio controls="" preload="none"><source src="samples/sample04-gt.wav"></audio></td>
</tr>
</tbody>
</table>
</dl>
# Griffin Lim
> Details zum Model: (todo: link)
> Tacotron2 + DDC: 460k Schritte trainiert
# ParallelWaveGAN
> Tacotron2 + DDC: 360k Schritte trainiert, PWGAN Vocoder: 925k Schritte trainiert
> Details: [Notebook von Olaf](https://colab.research.google.com/drive/15kJHTDTVxyIjxiZgqD1G_s5gUeVNLkfy?usp=sharing)
<dl>
<table>
<thead>
<tr>
<th>Sample</th>
<th>Text</th>
<th>Audio</th>
</tr>
</thead>
<tbody>
<tr>
<td>01</td>
<td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
<td><audio controls="" preload="none"><source src="samples/sample01-pwgan.wav"></audio></td>
</tr>
<tr>
<td>02</td>
<td>Eure Tröte nervt</td>
<td><audio controls="" preload="none"><source src="samples/sample02-pwgan.wav"></audio></td>
</tr>
<tr>
<td>03</td>
<td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
<td><audio controls="" preload="none"><source src="samples/sample03-pwgan.wav"></audio></td>
</tr>
<tr>
<td>04</td>
<td>Euer Plan hat ja toll geklappt.</td>
<td><audio controls="" preload="none"><source src="samples/sample04-pwgan.wav"></audio></td>
</tr>
<tr>
<td>05</td>
<td>Anfang vom Froschkönig</td>
<td><audio controls="" preload="none"><source src="samples/sample05-pwgan.wav"></audio></td>
</tr>
</tbody>
</table>
</dl>
# WaveGrad
> todo
# HifiGAN
> todo
# VocGAN
> **Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell**
> 200 Epochen / 284k Trainingsschritte
<dl>
<table>
<thead>
<tr>
<th>Sample</th>
<th>Text</th>
<th>Audio</th>
</tr>
</thead>
<tbody>
<tr>
<td>01</td>
<td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
<td><audio controls="" preload="none"><source src="samples/sample01-vocgan.wav"></audio></td>
</tr>
<tr>
<td>02</td>
<td>Eure Tröte nervt</td>
<td><audio controls="" preload="none"><source src="samples/sample02-vocgan.wav"></audio></td>
</tr>
<tr>
<td>03</td>
<td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
<td><audio controls="" preload="none"><source src="samples/sample03-vocgan.wav"></audio></td>
</tr>
<tr>
<td>04</td>
<td>Euer Plan hat ja toll geklappt.</td>
<td><audio controls="" preload="none"><source src="samples/sample04-vocgan.wav"></audio></td>
</tr>
</tbody>
</table>
</dl>
# GlowTTS / Waveglow
> Details: [Github von Synesthesiam](https://github.com/rhasspy/de_larynx-thorsten)
<dl>
<table>
<thead>
<tr>
<th>Sample</th>
<th>Text</th>
<th>Audio</th>
</tr>
</thead>
<tbody>
<tr>
<td>01</td>
<td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
<td><audio controls="" preload="none"><source src="samples/sample01-waveglow.wav"></audio></td>
</tr>
<tr>
<td>02</td>
<td>Eure Tröte nervt</td>
<td><audio controls="" preload="none"><source src="samples/sample02-waveglow.wav"></audio></td>
</tr>
<tr>
<td>03</td>
<td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
<td><audio controls="" preload="none"><source src="samples/sample03-waveglow.wav"></audio></td>
</tr>
<tr>
<td>04</td>
<td>Euer Plan hat ja toll geklappt.</td>
<td><audio controls="" preload="none"><source src="samples/sample04-waveglow.wav"></audio></td>
</tr>
</tbody>
</table>
</dl>

48
ghPages/index.md Normal file
View File

@ -0,0 +1,48 @@
# Motivation
<span style="font-size:1.5em;font-weight:bold">
Eine kostenfreie, qualitativ hochwertige, deutsche TTS Stimme, die offline erzeugt werden kann sollte jedem Projekt ohne Lizenzrechtliche Probleme zur Verfügung stehen.
</span>
# Egal aus welchem Bereich du kommst:
* Privates Bastelprojekt
* OpenSource/Community Projekt
* Bildung/Forschung/Wissenschaft
* Kommerzielles Unternehmen
* ...
# Egal welcher Bereich dich interessiert:
* Smarte Sprachassistenten
* Navigationssysteme
* Smart Homes
* Sprechende Kühlschränke
* Vorlesen von Bildschirmtexten (Barrierefreiheit)
* Interaktive Robotik
* ...
# Wer wir sind
Wir sind eine kleine motivierte Gruppe hobbymäßiger TTS-Enthusiasten die sich nach einem abgewandelten "Herr der Ringe Zitat" benannt hat - "**Fellowership of free german tts**"
# Wo wir aktuell stehen
Wir arbeiten weiterhin daran qualitativ noch bessere Modell zu trainieren, aber den aktuellen "stable" Stand kannst Du hier anhören:
* [Es ist im Moment klarer Himmel bei 18 Grad.](https://drive.google.com/file/d/1cDIq4QG6i60WjUYNT6fr2cpEjFQIi8w5/view?usp=sharing)
* [Ich verstehe das nicht, aber ich lerne jeden Tag neue Dinge.](https://drive.google.com/file/d/1kja_2RsFt6EmC33HTB4ozJyFlvh_DTFQ/view?usp=sharing)
* [Ich bin jetzt bereit.](https://drive.google.com/file/d/1GkplGH7LMJcPDpgFJocXHCjRln_ccVFs/view?usp=sharing)
* [Bitte warte einen Moment, bis ich fertig mit dem Booten bin.](https://drive.google.com/file/d/19Td-F14n_05F-squ3bNlt2BDE-NMFaq1/view?usp=sharing)
* [Mein Name ist Mycroft und ich bin funky.](https://drive.google.com/file/d/1dbyOyE7Oy8YdAsYqQ4vz4VJjiWIyc8oV/view?usp=sharing)
## Vergleich einiger Vocoder
Wir experimentieren aktuell mit unterschiedlichen Konfigurationen um das beste Modell zu ermitteln. Ein Vergleich der bisherigen Ergebnisse findest Du auf dieser Seite.
> [Vergleich der unterschiedlichen Modell](./audio_compare)
# Interessiert?
[Weitere Details, Downloads und Danksagungen findet ihr hier.](https://github.com/thorstenMueller/deep-learning-german-tts "Dataset Details und Thorsten-Modell Download")
---
<span style="font-size:1.5em;font-weight:bold">
Wir wünschen euch viel Spaß und Erfolg bei der Umsetzung eurer Projekte :-)
</span>

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.

Binary file not shown.