mirror of
https://github.com/thorstenMueller/Thorsten-Voice.git
synced 2024-11-25 01:13:10 +01:00
Update README.md
This commit is contained in:
parent
7b7e4a4372
commit
98b4710083
29
README.md
29
README.md
@ -1,4 +1,4 @@
|
|||||||
[english version](#introduction)
|
[english version below](#Introduction)
|
||||||
|
|
||||||
# Einleitung
|
# Einleitung
|
||||||
Viele (aktuell so angesagte) smarte Assistenten wie Amazon Alexa, Google Home, Apple Siri und Microsoft Cortana benötigen zwingend eine Internetverbindung um u.a. die Funktionen STT (Sprache in Text) und TTS (Text in Sprache) in ordentlicher Qualität anzubieten. Es gibt aber auch Open Source Projekte die alternative Assistenten entwickeln, die teils offline funktionieren.
|
Viele (aktuell so angesagte) smarte Assistenten wie Amazon Alexa, Google Home, Apple Siri und Microsoft Cortana benötigen zwingend eine Internetverbindung um u.a. die Funktionen STT (Sprache in Text) und TTS (Text in Sprache) in ordentlicher Qualität anzubieten. Es gibt aber auch Open Source Projekte die alternative Assistenten entwickeln, die teils offline funktionieren.
|
||||||
@ -14,6 +14,9 @@ Ich möchte meinen kleinen bescheidenen Beitrag leisten und stelle meine Stimme
|
|||||||
* Die SQlite DB vom Mimic-Recording-Studio mit meinen (bisher) eingesprochenen Sätzen
|
* Die SQlite DB vom Mimic-Recording-Studio mit meinen (bisher) eingesprochenen Sätzen
|
||||||
* Die LJSpeech-1.1 Struktur (metadata.csv und zugehörige WAV-Dateien) zur Verarbeitung mit mimic2 (basiert auf Tacotron)
|
* Die LJSpeech-1.1 Struktur (metadata.csv und zugehörige WAV-Dateien) zur Verarbeitung mit mimic2 (basiert auf Tacotron)
|
||||||
|
|
||||||
|
# Aktueller Stand
|
||||||
|
Aufnahmen 3.000 von 20.000 Sätzen mit einer gesprochenen Länge von 5 Stunden, 10 Minuten und einer Sprechgeschwindgkeit von ca. 12-13 Zeichen pro Sekunde.
|
||||||
|
|
||||||
# Sonstiges
|
# Sonstiges
|
||||||
Bitte verwende es nicht für Böses!
|
Bitte verwende es nicht für Böses!
|
||||||
Solltest Du meine (konkrete) TTS Stimme verwenden wäre ich für eine Info zum Projekt und eine Demo dankbar
|
Solltest Du meine (konkrete) TTS Stimme verwenden wäre ich für eine Info zum Projekt und eine Demo dankbar
|
||||||
@ -21,8 +24,28 @@ Solltest Du meine (konkrete) TTS Stimme verwenden wäre ich für eine Info zum P
|
|||||||
Außerdem gilt mein Dank an die Projekte/Communities von Mozilla Common Voice und MyCroft / Mimic.
|
Außerdem gilt mein Dank an die Projekte/Communities von Mozilla Common Voice und MyCroft / Mimic.
|
||||||
Besonds an Lindsay Saunders (Mozilla) für den netten Kontakt und eltocino, gras64, dominik von der MyCroft Community für die Gedult meine Anfängerfragen gedultig zu beantworten :-).
|
Besonds an Lindsay Saunders (Mozilla) für den netten Kontakt und eltocino, gras64, dominik von der MyCroft Community für die Gedult meine Anfängerfragen gedultig zu beantworten :-).
|
||||||
|
|
||||||
# introduction
|
# Introduction
|
||||||
bla bla
|
Many (currently so hip) smart assistants like Amazon Alexa, Google Home, Apple Siri and Microsoft Cortana need an internet connection to offer the functions STT (speech in text) and TTS (text in speech) in decent quality. But there are also open source projects that develop alternative wizards, some of which work offline.
|
||||||
|
|
||||||
|
For the area "STT / TTS", however, good training test data (eg for deep learning) are required. This is where the Mozilla Common Voice project comes into play.
|
||||||
|
|
||||||
|
# And?!
|
||||||
|
I want to make my small modest contribution and make my voice available under the CC0 license. The necessary sentences came from the Mozilla Common Voice project and I recorded the voice with Mimic Recording Studio (by MyCroft).
|
||||||
|
|
||||||
|
# Sounds good. What exactly is here.
|
||||||
|
* The entire German corpus as provided by Common Voice (base clips.tsv)
|
||||||
|
* The Corpus as a CSV format that can be used by the Mimic recording studio
|
||||||
|
* The SQlite DB from the Mimic recording studio with my (previously) spoken sentences
|
||||||
|
* The LJSpeech-1.1 structure (metadata.csv and associated WAV files) for processing with mimic2 (based on Tacotron)
|
||||||
|
|
||||||
|
# Current status
|
||||||
|
Record 3,000 of 20,000 sentences with a spoken length of 5 hours, 10 minutes and a speech speed of approximately 12-13 characters per second.
|
||||||
|
|
||||||
|
# Miscellaneous
|
||||||
|
Please do not use it for evil!
|
||||||
|
If you use my (concrete) TTS voice I would be grateful for an info about the project and a demo.
|
||||||
|
|
||||||
|
Also, my thanks go to the projects / communities of Mozilla Common Voice and MyCroft / Mimic. Especially to Lindsay Saunders (Mozilla) for nice contact and eltocino, gras64, dominik from the MyCroft community for the patience to patiently answer my beginner questions :-).
|
||||||
|
|
||||||
# Links
|
# Links
|
||||||
* https://github.com/MycroftAI/mimic2
|
* https://github.com/MycroftAI/mimic2
|
||||||
|
Loading…
Reference in New Issue
Block a user