First samples

2025-02-17 18:20:55 +01:00 · 2020-11-12 22:21:35 +01:00 · 2020-11-12 22:21:35 +01:00 · 84f791f106
commit 84f791f106
parent a77b919eaf
17 changed files with 53 additions and 64 deletions
--- a/docs/audio_comarison.md
+++ b/docs/audio_comarison.md
@ -1,67 +1,56 @@
-> english version below
+# Vocoder Vergleich auf Basis des "thorsten" Tacotron 2 Modells
+Hier sind Hörproben mit unterschiedlichen Vocodern. Alle gesprochenen Texte (Sample 1 - 4) basieren auf Aufnahmen im Dataset, jedoch nicht auf dem Spektogramm von "ground truth", sondern auf Basis des trainierten Tacotron 2 Modells. Sample 5 ist der Beginn des Märchens "Der Froschkönig" und wurde nicht für das Dataset aufgezeichnet.
+
+## Sätze
+* **Sample #01**: Eure Schoko-Bonbons sind sagenhaft lecker!
+* **Sample #02**: Eure Tröte nervt.
+* **Sample #03**: Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
+* **Sample #04**: Euer Plan hat ja toll geklappt.
+* *Sample #05: "In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön ..." (Anfang vom "Froschkönig")*
+
+# Ground truth
+Originalaufnahmen aus dem "thorsten" Dataset.

-# Audio vergleich
 <dl>
+  <ul>
+    <li>Sample #01 - Eure Schoko-Bonbons sind sagenhaft lecker!: <audio controls="" preload="none"><source src="../samples/sample01-gt.wav"></audio></li>
+    <li>Sample #02 - Eure Tröte nervt.: <audio controls="" preload="none"><source src="../samples/sample02-gt.wav"></audio></li>
+    <li>Sample #03 - Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.: <audio controls="" preload="none"><source src="../samples/sample03-gt.wav"></audio></li>
+    <li>Sample #04 - Euer Plan hat ja toll geklappt.: <audio controls="" preload="none"><source src="../samples/sample04-gt.wav"></audio></li>
+  </ul>
+</dl>

-    <table width="80%">
-        <thead>
-          <tr>
-            <th >Vocoder</th>
-            <th >RealTimeFactor</th>
-            <th >Sample #1</th>
-            <th >Sample #2</th>
-            <th >Sample #3</th>
-            <th >Sample #4</th>
-            <th >Details</th>
-          </tr>
-        </thead>
-        <tbody>
-          <tr>
-            <td >Ground truth</td>
-            <td > --- </td>
-            <td ><audio controls="" preload="none"><source src="./sample.wav"></audio></td>
-            <td ><audio controls="" preload="none"><source src="./sample.wav"></audio></td>
-            <td ><audio controls="" preload="none"><source src="./sample.wav"></audio></td>
-            <td ><audio controls="" preload="none"><source src="./sample.wav"></audio></td>
-            <td ><audio controls="" preload="none"><source src="./sample.wav"></audio></td>
-          </tr>
-          <tr>
-            <td >Griffin lim</td>
-            <td >0.5</td>
-            <td ><audio controls="" preload="none"><source src="./sample.wav"></audio></td>
-            <td ></td>
-            <td ></td>
-            <td ></td>
-            <td ></td>
-          </tr>
-          <tr>
-            <td >ParallelWaveGAN</td>
-            <td >0.6</td>
-            <td ><audio controls="" preload="none"><source src="./sample.wav"></audio></td>
-            <td ></td>
-            <td ></td>
-            <td ></td>
-            <td ></td>
-          </tr>
-          <tr>
-            <td >WaveGrad</td>
-            <td >0.7</td>
-            <td ><audio controls="" preload="none"><source src="./sample.wav"></audio></td>
-            <td ></td>
-            <td ></td>
-            <td ></td>
-            <td ></td>
-          </tr>
-          <tr>
-            <td >HifiGAN</td>
-            <td >1.5</td>
-            <td ><audio controls="" preload="none"><source src="./sample.wav"></audio></td>
-            <td ></td>
-            <td ></td>
-            <td ></td>
-            <td ></td>
-          </tr>
-        </tbody>
-        </table>
- 
-</dl>
+
+# Griffin Lim
+> Details zum Model: (todo: link)
+> Tacotron2 + DDC: 460k Schritte trainiert
+
+# ParallelWaveGAN
+> Tacotron2 + DDC: 360k Schritte trainiert
+> PWGAN Vocoder: 925k Schritte trainiert
+
+<dl>
+  <ul>
+    <li>Sample #01 - Eure Schoko-Bonbons sind sagenhaft lecker!:
+    <audio controls="" preload="none"><source src="../samples/sample01-pwgan.wav"></audio></li>
+    
+    <li>Sample #02 - Eure Tröte nervt.:
+    <audio controls="" preload="none"><source src="../samples/sample02-pwgan.wav"></audio></li>
+    
+    <li>Sample #03 - Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.:
+    <audio controls="" preload="none"><source src="../samples/sample03-pwgan.wav"></audio></li>
+    
+    <li>Sample #04 - Euer Plan hat ja toll geklappt.:
+    <audio controls="" preload="none"><source src="../samples/sample04-pwgan.wav"></audio></li>
+    
+    <li>Sample #05 - Anfang vom Froschkönig:
+    <audio controls="" preload="none"><source src="../samples/sample04-pwgan.wav"></audio></li>
+  </ul>
+</dl>
+
+
+# WaveGrad
+> todo
+
+# HifiGAN
+> todo
--- a/samples/original_recording/recorded_sample_01.wav
+++ b/samples/original_recording/recorded_sample_01.wav
--- a/samples/original_recording/recorded_sample_02.wav
+++ b/samples/original_recording/recorded_sample_02.wav
--- a/samples/original_recording/recorded_sample_03.wav
+++ b/samples/original_recording/recorded_sample_03.wav
--- a/samples/original_recording/recorded_sample_04.wav
+++ b/samples/original_recording/recorded_sample_04.wav
--- a/samples/original_recording/recorded_sample_05.wav
+++ b/samples/original_recording/recorded_sample_05.wav
--- a/samples/original_recording/recorded_sample_06.wav
+++ b/samples/original_recording/recorded_sample_06.wav
--- a/samples/original_recording/recorded_sample_07.wav
+++ b/samples/original_recording/recorded_sample_07.wav
--- a/samples/sample01-gt.wav
+++ b/samples/sample01-gt.wav
--- a/samples/sample01-pwgan.wav
+++ b/samples/sample01-pwgan.wav
--- a/samples/sample02-gt.wav
+++ b/samples/sample02-gt.wav
--- a/samples/sample02-pwgan.wav
+++ b/samples/sample02-pwgan.wav
--- a/samples/sample03-gt.wav
+++ b/samples/sample03-gt.wav
--- a/samples/sample03-pwgan.wav
+++ b/samples/sample03-pwgan.wav
--- a/samples/sample04-gt.wav
+++ b/samples/sample04-gt.wav
--- a/samples/sample04-pwgan.wav
+++ b/samples/sample04-pwgan.wav
--- a/samples/sample05-pwgan.wav
+++ b/samples/sample05-pwgan.wav