mirror of
https://github.com/thorstenMueller/Thorsten-Voice.git
synced 2024-11-21 23:43:12 +01:00
Added github page with index and sample wavs
This commit is contained in:
parent
f55e16d0fc
commit
7b27bdac2d
1
ghPages/_config.yml
Normal file
1
ghPages/_config.yml
Normal file
@ -0,0 +1 @@
|
||||
theme: jekyll-theme-cayman
|
184
ghPages/audio_compare.md
Normal file
184
ghPages/audio_compare.md
Normal file
@ -0,0 +1,184 @@
|
||||
# Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells
|
||||
Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (*Sample 1 - 4*) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet.
|
||||
|
||||
## Sätze
|
||||
* **Sample #01**: Eure Schoko-Bonbons sind sagenhaft lecker!
|
||||
* **Sample #02**: Eure Tröte nervt.
|
||||
* **Sample #03**: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
|
||||
* **Sample #04**: Euer Plan hat ja toll geklappt.
|
||||
* *Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön ..." (Anfang vom "Froschkönig")*
|
||||
|
||||
# Ground truth
|
||||
Originalaufnahmen aus dem "thorsten" Dataset.
|
||||
|
||||
<dl>
|
||||
|
||||
<table>
|
||||
<thead>
|
||||
<tr>
|
||||
<th>Sample</th>
|
||||
<th>Text</th>
|
||||
<th>Audio</th>
|
||||
</tr>
|
||||
</thead>
|
||||
<tbody>
|
||||
<tr>
|
||||
<td>01</td>
|
||||
<td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample01-gt.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>02</td>
|
||||
<td>Eure Tröte nervt</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample02-gt.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>03</td>
|
||||
<td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample03-gt.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>04</td>
|
||||
<td>Euer Plan hat ja toll geklappt.</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample04-gt.wav"></audio></td>
|
||||
</tr>
|
||||
</tbody>
|
||||
</table>
|
||||
|
||||
</dl>
|
||||
|
||||
|
||||
# Griffin Lim
|
||||
> Details zum Model: (todo: link)
|
||||
> Tacotron2 + DDC: 460k Schritte trainiert
|
||||
|
||||
# ParallelWaveGAN
|
||||
> Tacotron2 + DDC: 360k Schritte trainiert, PWGAN Vocoder: 925k Schritte trainiert
|
||||
|
||||
> Details: [Notebook von Olaf](https://colab.research.google.com/drive/15kJHTDTVxyIjxiZgqD1G_s5gUeVNLkfy?usp=sharing)
|
||||
<dl>
|
||||
|
||||
<table>
|
||||
<thead>
|
||||
<tr>
|
||||
<th>Sample</th>
|
||||
<th>Text</th>
|
||||
<th>Audio</th>
|
||||
</tr>
|
||||
</thead>
|
||||
<tbody>
|
||||
<tr>
|
||||
<td>01</td>
|
||||
<td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample01-pwgan.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>02</td>
|
||||
<td>Eure Tröte nervt</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample02-pwgan.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>03</td>
|
||||
<td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample03-pwgan.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>04</td>
|
||||
<td>Euer Plan hat ja toll geklappt.</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample04-pwgan.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>05</td>
|
||||
<td>Anfang vom Froschkönig</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample05-pwgan.wav"></audio></td>
|
||||
</tr>
|
||||
</tbody>
|
||||
</table>
|
||||
|
||||
</dl>
|
||||
|
||||
|
||||
# WaveGrad
|
||||
> todo
|
||||
|
||||
# HifiGAN
|
||||
> todo
|
||||
|
||||
# VocGAN
|
||||
> **Diese Beispiele basieren auf "ground truth" und nicht auf dem Tacotron 2 Modell**
|
||||
> 200 Epochen / 284k Trainingsschritte
|
||||
|
||||
<dl>
|
||||
|
||||
<table>
|
||||
<thead>
|
||||
<tr>
|
||||
<th>Sample</th>
|
||||
<th>Text</th>
|
||||
<th>Audio</th>
|
||||
</tr>
|
||||
</thead>
|
||||
<tbody>
|
||||
<tr>
|
||||
<td>01</td>
|
||||
<td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample01-vocgan.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>02</td>
|
||||
<td>Eure Tröte nervt</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample02-vocgan.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>03</td>
|
||||
<td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample03-vocgan.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>04</td>
|
||||
<td>Euer Plan hat ja toll geklappt.</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample04-vocgan.wav"></audio></td>
|
||||
</tr>
|
||||
</tbody>
|
||||
</table>
|
||||
|
||||
</dl>
|
||||
|
||||
# GlowTTS / Waveglow
|
||||
> Details: [Github von Synesthesiam](https://github.com/rhasspy/de_larynx-thorsten)
|
||||
|
||||
<dl>
|
||||
|
||||
<table>
|
||||
<thead>
|
||||
<tr>
|
||||
<th>Sample</th>
|
||||
<th>Text</th>
|
||||
<th>Audio</th>
|
||||
</tr>
|
||||
</thead>
|
||||
<tbody>
|
||||
<tr>
|
||||
<td>01</td>
|
||||
<td>Eure Schoko-Bonbons sind sagenhaft lecker</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample01-waveglow.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>02</td>
|
||||
<td>Eure Tröte nervt</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample02-waveglow.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>03</td>
|
||||
<td>Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample03-waveglow.wav"></audio></td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>04</td>
|
||||
<td>Euer Plan hat ja toll geklappt.</td>
|
||||
<td><audio controls="" preload="none"><source src="samples/sample04-waveglow.wav"></audio></td>
|
||||
</tr>
|
||||
</tbody>
|
||||
</table>
|
||||
|
||||
</dl>
|
48
ghPages/index.md
Normal file
48
ghPages/index.md
Normal file
@ -0,0 +1,48 @@
|
||||
# Motivation
|
||||
|
||||
<span style="font-size:1.5em;font-weight:bold">
|
||||
Eine kostenfreie, qualitativ hochwertige, deutsche TTS Stimme, die offline erzeugt werden kann sollte jedem Projekt ohne Lizenzrechtliche Probleme zur Verfügung stehen.
|
||||
</span>
|
||||
|
||||
|
||||
# Egal aus welchem Bereich du kommst:
|
||||
* Privates Bastelprojekt
|
||||
* OpenSource/Community Projekt
|
||||
* Bildung/Forschung/Wissenschaft
|
||||
* Kommerzielles Unternehmen
|
||||
* ...
|
||||
|
||||
# Egal welcher Bereich dich interessiert:
|
||||
* Smarte Sprachassistenten
|
||||
* Navigationssysteme
|
||||
* Smart Homes
|
||||
* Sprechende Kühlschränke
|
||||
* Vorlesen von Bildschirmtexten (Barrierefreiheit)
|
||||
* Interaktive Robotik
|
||||
* ...
|
||||
|
||||
# Wer wir sind
|
||||
Wir sind eine kleine motivierte Gruppe hobbymäßiger TTS-Enthusiasten die sich nach einem abgewandelten "Herr der Ringe Zitat" benannt hat - "**Fellowership of free german tts**"
|
||||
|
||||
# Wo wir aktuell stehen
|
||||
Wir arbeiten weiterhin daran qualitativ noch bessere Modell zu trainieren, aber den aktuellen "stable" Stand kannst Du hier anhören:
|
||||
* [Es ist im Moment klarer Himmel bei 18 Grad.](https://drive.google.com/file/d/1cDIq4QG6i60WjUYNT6fr2cpEjFQIi8w5/view?usp=sharing)
|
||||
* [Ich verstehe das nicht, aber ich lerne jeden Tag neue Dinge.](https://drive.google.com/file/d/1kja_2RsFt6EmC33HTB4ozJyFlvh_DTFQ/view?usp=sharing)
|
||||
* [Ich bin jetzt bereit.](https://drive.google.com/file/d/1GkplGH7LMJcPDpgFJocXHCjRln_ccVFs/view?usp=sharing)
|
||||
* [Bitte warte einen Moment, bis ich fertig mit dem Booten bin.](https://drive.google.com/file/d/19Td-F14n_05F-squ3bNlt2BDE-NMFaq1/view?usp=sharing)
|
||||
* [Mein Name ist Mycroft und ich bin funky.](https://drive.google.com/file/d/1dbyOyE7Oy8YdAsYqQ4vz4VJjiWIyc8oV/view?usp=sharing)
|
||||
|
||||
|
||||
## Vergleich einiger Vocoder
|
||||
Wir experimentieren aktuell mit unterschiedlichen Konfigurationen um das beste Modell zu ermitteln. Ein Vergleich der bisherigen Ergebnisse findest Du auf dieser Seite.
|
||||
> [Vergleich der unterschiedlichen Modell](./audio_compare)
|
||||
|
||||
# Interessiert?
|
||||
[Weitere Details, Downloads und Danksagungen findet ihr hier.](https://github.com/thorstenMueller/deep-learning-german-tts "Dataset Details und Thorsten-Modell Download")
|
||||
|
||||
|
||||
---
|
||||
|
||||
<span style="font-size:1.5em;font-weight:bold">
|
||||
Wir wünschen euch viel Spaß und Erfolg bei der Umsetzung eurer Projekte :-)
|
||||
</span>
|
BIN
ghPages/samples/sample01-gt.wav
Normal file
BIN
ghPages/samples/sample01-gt.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample01-pwgan.wav
Normal file
BIN
ghPages/samples/sample01-pwgan.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample01-vocgan.wav
Normal file
BIN
ghPages/samples/sample01-vocgan.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample01-waveglow.wav
Normal file
BIN
ghPages/samples/sample01-waveglow.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample02-gt.wav
Normal file
BIN
ghPages/samples/sample02-gt.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample02-pwgan.wav
Normal file
BIN
ghPages/samples/sample02-pwgan.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample02-vocgan.wav
Normal file
BIN
ghPages/samples/sample02-vocgan.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample02-waveglow.wav
Normal file
BIN
ghPages/samples/sample02-waveglow.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample03-gt.wav
Normal file
BIN
ghPages/samples/sample03-gt.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample03-pwgan.wav
Normal file
BIN
ghPages/samples/sample03-pwgan.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample03-vocgan.wav
Normal file
BIN
ghPages/samples/sample03-vocgan.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample03-waveglow.wav
Normal file
BIN
ghPages/samples/sample03-waveglow.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample04-gt.wav
Normal file
BIN
ghPages/samples/sample04-gt.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample04-pwgan.wav
Normal file
BIN
ghPages/samples/sample04-pwgan.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample04-vocgan.wav
Normal file
BIN
ghPages/samples/sample04-vocgan.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample04-waveglow.wav
Normal file
BIN
ghPages/samples/sample04-waveglow.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample05-pwgan.wav
Normal file
BIN
ghPages/samples/sample05-pwgan.wav
Normal file
Binary file not shown.
BIN
ghPages/samples/sample05-waveglow.wav
Normal file
BIN
ghPages/samples/sample05-waveglow.wav
Normal file
Binary file not shown.
Loading…
Reference in New Issue
Block a user