Update index.md

This commit is contained in:
Thorsten Müller 2020-09-28 21:50:28 +02:00 committed by GitHub
parent 9fdd55d4b4
commit 0b110b1700
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

View File

@ -2,15 +2,7 @@
Auch wenn die Überschrift stark nach einem politischen Statement klingt, geht es hier um ein völlig anderes Thema.
Derzeit gewinnt die sprachbasierte Bedienung von Maschinen rasant an Bedeutung. Viele kennen diese Kommunikation bereits aus ihrem Alltag mit Smartphones oder so genannten smarten Assistenten wie Apple Siri, Google Home oder Amazon Alexa.
Die Systeme der großen Hersteller bringen, neben sehr vielen Vorteilen, auch einige durchaus schwerwiegende Nachteile mit sich.
* Benötigen zwingend Internetzugang
* Stehen in ständiger Verbindung mit den Servern der Hersteller (zwingende Cloud Anbindung)
* Datenschutz nach deutschen oder europäischen Standards kann nicht garantiert werden
* Die Hoheit über die eigenen Daten wird aufgegeben (keine Kontrolle über deren Verwendung)
* Bedenken darüber, wer mithören könnte, da die Geräte konstant mit den Servern der Hersteller Daten austauschen
Daher gibt es durchaus Menschen, die zwar die Vorteile solcher Systeme gerne nutzen möchten, aber aufgrund von den genannten Datenschutzbedenken von deren Nutzung absehen.
Die Systeme der großen Hersteller bringen, neben sehr vielen Vorteilen, auch einige durchaus schwerwiegende Nachteile im Datenschutzbereich mit sich (Cloudzwang, mangelnde Hoheit über die eigenen Daten, Bedenken über "Mithörer", ...). Daher gibt es durchaus Menschen, die zwar die Vorteile solcher Systeme gerne nutzen möchten, aber aufgrund von den genannten Datenschutzbedenken von deren Nutzung absehen.
# Alternativen zu Amazon, Google, Apple, ...
Glücklicherweise bilden sich auch Alternativen (u.a. OpenSource) heraus um der Marktmarkt der "Big Player" etwas entgegenzutreten. Einige davon sind:
@ -27,30 +19,18 @@ Falls dem so ist und das Gerät eine gut verständliche deutsche Antwort geliefe
Natürlich wissen Amazon, Google und Apple um die gute Qualität ihrer künstlichen Stimmen und sind u.a. daher nicht bereit, diese für eine private- und kostenfreie Offlinenutzung zur Verfügung zu stellen.
Und genau da liegt eines der großen Probleme in (quelloffenen) Alternativen. Selbst wenn große Anteile kostenfrei und offline zu betreiben sind, spätestens bei der Sprachausgabe sind sie auf die "Big Player" angewiesen, sofern sie einen gewissen Qualitätsanspruch haben.
# Wie hilft dieses Projekt
Vor einiger Zeit habe ich beschlossen meine persönliche Stimme zu spenden und habe dazu über 23 Stunden meiner Sprache auf Basis freier Texte aufgezeichnet. Damit kann mit aktuellen "Machine Learning" Techniken eine synthetische Stimme berechnet werden. Folgende Nutzungsaspekte sind mir dabei wichtig:
# Wie und wem hilft dieses Projekt
Das freie deutsche Dataset beinhaltet über 23 aufgezeichneter Stunden auf Basis freier Texte. Darauf basieren die mit machine learning trainierten TTS Modelle.
Die Nutzung ist **ohne Lizenzrechtliche Bedenken** möglich und steht somit allen Interessierten offen. Zum Beispiel:
* OpenSource Projekte und kleinere Communities sollen eine deutsche Stimme offline mit ausliefern können.
* Problemlose Nutzung für wissenschaftliche Zwecke, sowie Forschung und Bildung.
* Auch die kommerzielle Nutzung soll möglich sein.
* Keine Einschränkungen bezüglich der Nutzung (CC0-Lizenz).
* OpenSource Projekte/Communities
* Bildung/Forschung/Wissenschaft
* kommerzielle Einsatzzwecke
# One voice show?
Um ein historisches Zitat leicht abzuwandeln (mit einer kleinen Prise Größenwahn meinerseits):
> "Es ist eine kleine Stimme für mich, aber eine große Stimme für die Menschheit".
Nein, es ist definitiv keine "one voice show"!
Die verfügbaren Originalaufnahmen kommen zwar von mir, aber ohne die Unterstützung weiterer netter und hochmotivierter Enthusiasten aus diesem Bereich wäre wohl niemals ein nutzbares Modell herausgekommen.
Daher bedanke ich mich herzlich bei allen Mitstreitern aus der **"Gemeinschaft eines freien deutschen TTS Modells"**
> Auf englisch klingt das "Herr der Ringe" Zitat irgendwie besser: "Fellowership of free german tts"
* Dominik Kreutz (github page)
* TODO: klären ob, bzw. wer mit welchem Namen gelistet sein möchte
Gerade den kleinen Communities soll hiermit die Möglichkeit geboten zu werden offline TTS Funktion in ihren Projekten mit auszuliefern.
# Aktueller Stand
Wir wissen, dass das aktuelle Modell qualitativ noch viel Luft nach oben hat. Aber wir sind weiterhin motiviert und probieren verschiedene Konfigurationen aus um in Zukunft hoffentlich ein noch besseres Modell zur Verfügung stellen zu können.
Da die Originalaufnahmen öffentlich sind, ist jeder eingeladen eigene Modell und Trainingskonfigurationen auszuprobieren.
Wir (eine Gruppe von netten TTS Enthusiasten) wissen, dass das aktuelle Modell qualitativ noch viel Luft nach oben hat. Aber wir sind weiterhin motiviert in Zukunft hoffentlich noch bessere Modelle zur Verfügung stellen zu können.
# Beispiele
* [Es ist im Moment klarer Himmel bei 18 Grad.](https://drive.google.com/file/d/1cDIq4QG6i60WjUYNT6fr2cpEjFQIi8w5/view?usp=sharing)
@ -59,10 +39,12 @@ Da die Originalaufnahmen öffentlich sind, ist jeder eingeladen eigene Modell un
* [Bitte warte einen Moment, bis ich fertig mit dem Booten bin.](https://drive.google.com/file/d/19Td-F14n_05F-squ3bNlt2BDE-NMFaq1/view?usp=sharing)
* [Mein Name ist MyCroft und ich bin funky.](https://drive.google.com/file/d/1dbyOyE7Oy8YdAsYqQ4vz4VJjiWIyc8oV/view?usp=sharing)
# Was kommt in Zukunft noch
Wir (Fellowership of free german tts) sind gerade noch mitten im Prozess die beste Konfiguration des Stimmtrainings, etc. zu finden. Wir werden nach und nach Modelle veröffentlichen die im Laufe der Zeit hoffentlich immer besser werden. Vielleicht kommen noch Anleitungen zum Einrichten der notwendigen Softwarekomponenten oder die Bereitstellung als Docker Container hinzu.
# Zu guter Letzt
Da ich keinen großen Einfluss habe, welche Aussagen mit meiner Stimme zukünftig gemacht werden, möchte ich doch einige Punkte sagen, die mir persönlich wichtig sind:
Ich teile meine Stimme als Person, die daran glaubt, dass alle Menschen gleichberechtigt sind, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder den Geokoordinaten der Geburt. An eine Welt wo jeder Mensch zu jeder Zeit herzlich Willkommen ist und wo Bildung und Wissen für jeden frei verfügbar ist.
Ich teile meine Stimme als Person, die daran glaubt, dass alle Menschen gleichberechtigt sind, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder den Geokoordinaten der Geburt. An eine Welt wo jeder Mensch zu jeder Zeit herzlich Willkommen ist und wo Bildung und Wissen für jeden frei verfügbar ist.
# Links
* https://github.com/thorstenMueller/deep-learning-german-tts/
* https://medium.com/@thorsten_Mueller/why-ive-chosen-to-donate-my-german-voice-for-mankind-177beeb91675
* TODO Github Links der Mitstreiter