Masterarbeit - Details

Speech Inpainting Using Recurrent Neural Networks

Betreuer: Lars Thieling

Themengebiet: Sprachsignalverarbeitung, Machine Learning

Kategorie: Masterarbeit (MA)

Status: laufend

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz- und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z. B. in der Störgeräuschreduktion oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt jedoch zu hörbaren Artefakten. Durch Rekonstruktion des Nutzsignals können diese Artefakte behoben werden. In Anlehnung an das Image Inpainting aus der digitalen Bildverarbeitung, wird dieser Rekonstruktionsprozess für den Fall von Sprachsignalen als Speech Inpainting bezeichnet.

Abhängig von der Frequenzbreite und Dauer der fehlenden Signalanteile (Lücken) existieren dabei verschiedene Ansätze, wie z. B. die Bandbreitenerweiterung oder Packet Loss Concealment. Diese Verfahren sind jedoch meist nur auf Zeit- oder Frequenz-begrenzte Lücken ausgelegt. Für Zeitund Frequenz-abhängige Störungen, wie z. B. eine Autohupe, sind diese Algorithmen i. d. R. nicht geeignet. Daher müssen neue Verfahren entwickelt werden, welche solche speziellen Lücken auf Basis der ungestörten Anteile rekonstruieren können. Aufgrund der vielversprechenden Ergebnisse beim Image Inpainting bieten sich hierzu Ansätze aus dem Bereich des Machine Learning an.

Zur Verarbeitung sequentieller Daten, wie beispielsweise Sprache, bieten sich dabei insbesondere Recurrent Neural Networks (RNNs) an. Die wohl populärste Art von RNNs sind dabei solche, die sogenannte Long Short-Term Memory Neuronen verwenden. Solche LSTMs ermöglichen es dem neuronalen Netz, sich an frühere Erfahrungen länger erinnern zu können. Auf diese Weise kann der zur Verfügung stehende zeitliche Kontext zur Rekonstruktion der Sprache in den Lücken deutlich vergrößert werden. In dieser Arbeit sollen solche RNNs auf Basis von LSTMs sowie andere RNN Strukturen, wie z.B. auf Basis von Gated Recurrent Units (GRUs), für die Anwendung des Speech Inpaintings implementiert, trainiert sowie evaluiert werden. Dabei stellt besonders die Untersuchung des benötigten zeitlichen Kontexts eine bedeutende Rolle dar. Mit Hilfe von Ansätzen zur Interpretation von trainierten neuronalen Netzen, wie z.B. Layer-wise Relevance Propagation oder SHapley Additive exPlanations, sollen diese untersucht und zur Optimierung des Netzes genutzt werden.

zurück