Student Theses - Details

Speech Synthesis From Degraded Magnitude Spectra Using Machine Learning Techniques

Betreuer:Lars Thieling, Till Hardenbicker

Themengebiet: Sprachsignalverarbeitung, Machine Learning, Sprachsynthese

Kategorie: Bachelorarbeit (BA)

Status: laufend

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz-
und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z. B. in der Störgeräuschreduktion
oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt
jedoch zu hörbaren Artefakten. Hier kann eine Rekonstruktion des Nutzsignals zur Behebung
dieser Artefakte herangezogen werden. Häufig wird dabei allerdings nur das Betragsspektrum
rekonstruiert und das Phasenspektrum aufgrund seiner vergleichsweise geringeren Relevanz
unverändert übernommen. Dies führt dazu, dass zwar die Verzerrungen im Betragsspektrum
reduziert werden können, im Phasenspektrum jedoch nicht. Bei der anschließenden Synthese des
Sprachsignals führt die Verwendung des gestörten Phasenspektrum somit zwangsläufig zu einer
verschlechterten Sprachqualität bzw. -verständlichkeit.


In dieser Arbeit sollen daher Verfahren entwickelt werden, welche eine Rekonstruktion des Phasen-
spektrums von Sprachsignalen auf Basis geschätzter bzw. gestörter Betragsspektren ermöglichen.
Hierzu bieten sich Ansätze aus dem Bereich des Machine Learnings an. Es sollen zunächst
existierende Ansätze zur Phasenrekonstruktion, welche sich für ungestörte Betragsspektren als
geeignet heraus gestellt haben, recherchiert und für die Anwendung auf gestörte Betragsspektren
untersucht werden. Auf Basis dieser Ergebnisse soll ein vielversprechender Ansatz ausgewählt
und für den gestörten Fall weiterentwickelt werden. Als Ausgangspunkt für die Arbeit soll ein
am Institut entwickelter Phasenrekonstruktions-Algorithmus dienen. Darüber hinaus ist auch die
Betrachtung des WaveGlow Netzwerks von NVIDIA denkbar. Die erzielten Ergebnisse sollen mit
dem weit verbreiteten Griffin-Lim Algorithmus verglichen werden. Aufgrund der eher geringen
Relevanz der Phase ist ein wichtiger Aspekt der Arbeit, einen geeigneten Tradeoff zwischen
erzielter Performance und benötigter Rechenkomplexität zu finden.

back