Student Theses - Details

Investigation of Generative Neural Networks for Speech Enhancement

Betreuer:Lars Thieling, Till Hardenbicker

Themengebiet: Sprachsignalverarbeitung, Machine Learning

Kategorie: Masterarbeit (MA)

Status: laufend

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz-
und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z. B. in der Störgeräuschreduktion
oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt
jedoch zu hörbaren Artefakten. Hier kann eine Rekonstruktion des Nutzsignals zur Behebung
dieser Artefakte herangezogen werden. Häufig wird dabei allerdings nur das Betragsspektrum
rekonstruiert und das Phasenspektrum aufgrund seiner vergleichsweise geringeren Relevanz
unverändert übernommen. Dies führt dazu, dass zwar die Verzerrungen im Betragsspektrum
reduziert werden können, im Phasenspektrum jedoch nicht. Bei der anschließenden Synthese des
Sprachsignals führt die Verwendung des gestörten Phasenspektrum somit zwangsläufig zu einer
verschlechterten Sprachqualität bzw. -verständlichkeit.


In dieser Arbeit sollen daher Verfahren entwickelt werden, welche eine Rekonstruktion des
Zeitsignals auf Basis des Betragsspektrums ermöglichen. Hierzu bieten sich insbesondere An-
sätze aus dem Bereich des Machine Learnings an. Als Ausgangspunkt für die Arbeit soll das
generative WaveGlow -Netzwerk von NVIDIA dienen. Dieses konnte als Teil des Text-to-Speech
(TTS) Systems Tacotron 2 bereits sehr gute Ergebnisse bei der Sprachsynthese ausgehend von
künstlich erzeugten Betrags- bzw. Mel-Spektren erzielen. Zunächst soll das WaveGlow-Netzwerk
für ungestörte Betragsspektren trainiert und mit einem am Institut entwickelten Phasenrekon-
struktionsverfahren sowie dem Griffin-Lim Algorithmus verglichen werden. Anschließend sollen
Betragsspektren, welche mit Störgeräuschen überlagerte Sprache enthalten, betrachtet werden.
Neben der direkten Anwendung des WaveGlow-Netzwerkes auf die gestörten Betragsspektren ist
auch eine Vorprozessierung der Betragsspektren durch andere Störgeräuschreduktionsverfahren
denkbar. So könnte beispielsweise die Ideal Binary Mask (IBM) als eine erste Annäherung an ein
reales Störgeräuschreduktionsverfahren verwendet werden.

back