Masterarbeit - Details

Speech Inpainting Using Image Processing Techniques

Betreuer: Lars Thieling

Themengebiet: Sprachsignalverarbeitung, Machine Learning

Kategorie: Masterarbeit (MA)

Status: laufend

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz- und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z. B. in der Störgeräuschreduktion oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt jedoch zu hörbaren Artefakten. Im Rahmen der Arbeit soll eine Rekonstruktion des Nutzsignals zur Behebung dieser Artefakte entwickelt werden. In Anlehnung an das Image Inpainting aus der digitalen Bildverarbeitung, wird dieser Rekonstruktionsprozess für den Fall von Sprachsignalen als Speech Inpainting bezeichnet.


Abhängig von der Frequenzbreite und Dauer der fehlenden Signalanteile (Lücken) existieren dabei verschiedene Ansätze, wie z. B. die Bandbreitenerweiterung oder Packet Loss Concealment. Diese Verfahren sind jedoch meist nur auf Zeit- oder Frequenz-begrenzte Lücken ausgelegt. Für Zeit- und Frequenz-abhängige Störungen, wie z. B. eine Autohupe, sind diese Algorithmen i. d. R. nicht geeignet.

In dieser Arbeit sollen daher Verfahren entwickelt werden, welche solche speziellen Lücken auf Basis der ungestörten Anteile rekonstruieren können. Aufgrund der vielversprechenden Ergebnisse im Image Inpainting sollen hierzu einzelne Ausschnitte aus dem Spektrum der Sprache als Bilder interpretiert und mit Hilfe von Algorithmen aus der Bildverarbeitung rekonstruiert werden. Insbesondere sollen auch vorprozessierende Schritte betrachtet werden, welche in der  Bildverarbeitung häufig Anwendung finden. Ein Beispiel hierfür könnte eine vorgeschaltete Kantendetektion zur Feature-Erzeugung sein, welche unter anderem die im Sprachspektrum meist gut erkennbaren Formanten detektiert. Bereits existierenden Neuronale Netze sollen recherchiert und vielversprechende Kandidaten für den angedachten Zweck des Speech Inpaintings optimiert werden.

zurück