Masterarbeit - Details

Deep Speech Inpainting for Masks Resulting from Noisy Spectra

Betreuer: Lars Thieling

Themengebiet: Sprachsignalverarbeitung, Machine Learning

Kategorie: Masterarbeit (MA)

Status: laufend

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz- und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z. B. in der Störgeräuschreduktion oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt jedoch zu hörbaren Artefakten. Durch Rekonstruktion des Nutzsignals können diese Artefakte behoben werden. In Anlehnung an das Image Inpainting aus der digitalen Bildverarbeitung, wird dieser Rekonstruktionsprozess für den Fall von Sprachsignalen als Speech Inpainting bezeichnet.

Abhängig von der Frequenzbreite und Dauer der fehlenden Signalanteile (Lücken) existieren dabei verschiedene Ansätze, wie z. B. die Bandbreitenerweiterung oder Packet Loss Concealment. Diese Verfahren sind jedoch meist nur auf Zeit- oder Frequenz-begrenzte Lücken ausgelegt. Für Zeitund Frequenz-abhängige Störungen, wie z. B. eine Autohupe, sind diese Algorithmen i. d. R. nicht geeignet. Daher müssen neue Verfahren entwickelt werden, welche solche speziellen Lücken auf Basis der ungestörten Anteile rekonstruieren können. Aufgrund der vielversprechenden Ergebnisse beim Image Inpainting bieten sich hierzu Ansätze aus dem Bereich des Machine Learning an.

Im Rahmen dieser Arbeit sollen vor allem Lücken, welche sich durch binäre Maskierung von verrauschten Sprachspektren ergeben können, betrachtet werden. Da der Fokus dieser Arbeit auf dem Inpainting von Sprachsignalen liegen soll, wird zur Maskierung die sogenannte Ideal Binary Masking (IBM) angewendet. Die IBM gewichtet spektrale Anteile mit 0, in denen die Signal-to-Noise-Ratio (SNR) unterhalb eines gewissen Thresholds liegt und entfernt somit spektrale Anteile, in denen das Rauschen dominant ist. Mit Hilfe eines geeigneten Deep Neural Networks (DNN) sollen die entfernten spektralen Anteile wieder rekonstruiert werden. Dazu soll zunächst ein auf zufällig gleichverteilten Lücken trainiertes DNN für das Inpainting verwendet werden, indem von vollständig Rausch-bereinigten Restsignalanteilen ausgegangen wird. D.h. das DNN erhält als Eingang das mit der IBM maskierte Nutzsignal ohne jedliche Rauschanteile. Anschließend soll als Eingang das mit der IBM maskierte verrauschte Nutzsignal verwendet und somit der Einfluss von zusätzlichem Rauschen in den Restsignalanteilen untersucht werden. Optional ist ein Vergleich mit einem DNN denkbar, welches speziell auf dem mittels IBM maskierten verrauschten Nutzsignal trainiert wurde.

zurück