Masterarbeit - Details

Autoencoder for the Application in Speech Inpainting

Betreuer: Lars Thieling

Themengebiet: Sprachsignalverarbeitung, Machine Learning

Kategorie: Masterarbeit (MA)

Status: laufend

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz- und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z. B. in der Störgeräuschreduktion oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt jedoch zu hörbaren Artefakten. Durch Rekonstruktion des Nutzsignals können diese Artefakte behoben werden. In Anlehnung an das Image Inpainting aus der digitalen Bildverarbeitung, wird dieser Rekonstruktionsprozess für den Fall von Sprachsignalen als Speech Inpainting bezeichnet.

Abhängig von der Frequenzbreite und Dauer der fehlenden Signalanteile (Lücken) existieren dabei verschiedene Ansätze, wie z. B. die Bandbreitenerweiterung oder Packet Loss Concealment. Diese Verfahren sind jedoch meist nur auf Zeit- oder Frequenz-begrenzte Lücken ausgelegt. Für Zeitund Frequenz-abhängige Störungen, wie z. B. eine Autohupe, sind diese Algorithmen i. d. R. nicht geeignet. Daher müssen neue Verfahren entwickelt werden, welche solche speziellen Lücken auf Basis der ungestörten Anteile rekonstruieren können. Aufgrund der vielversprechenden Ergebnisse beim Image Inpainting bieten sich hierzu Ansätze aus dem Bereich des Machine Learning an.

Ein entscheidender Faktor bei der Entwicklung und dem Training neuronaler Netze spielt die Größe bzw. die Dimension der Trainingsdaten. Meist werden daher sogenannte Sprach-Features anstelle der rohen Audiodaten verwendet, um die Komplexität des neuronalen Netzes zu reduzieren. In dieser Arbeit sollen Verfahren entwickelt werden, welche die Sprachdaten möglichst ohne große Qualitätseinbuße komprimieren und so die Komplexität eines nachgeschalteten Speech Inpainting-Netzes reduzieren kann. Hierzu sollen zunächst existierende Autoencoder für Sprache recherchiert, geeignete Ansätze ermittelt und implementiert werden. Anschließend soll untersucht werden, inwiefern die so encodierten Daten für das Training neuronaler Netze, welche ein Speech Inpainting durchführen, geeignet sind. Dies kann beispielsweise durch einen Vergleich mit auf üblichen Sprach-Features trainierten neuronalen Netzen geschehen. Auch ein Vergleich mit eher klassischen Kompressionsverfahren, wie z. B. der Principal Component Analysis oder Codebooks ist denkbar.

zurück