Masterarbeit - Details

Sie verwenden einen Browser, in dem JavaScript deaktiviert ist. Dadurch wird verhindert, dass Sie die volle Funktionalität dieser Webseite nutzen können. Zur Navigation müssen Sie daher die Sitemap nutzen.

You are currently using a browser with deactivated JavaScript. There you can't use all the features of this website. In order to navigate the site, please use the Sitemap .

Machine Learning Algorithmen zur Rekonstruktion verlorener Sprachsignalanteile

Betreuer: Lars Thieling, Thomas Schlien

Themengebiet: Sprachsignalverarbeitung, Machine Learning

Kategorie: Masterarbeit (MA)

Status: laufend

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz- und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z.B. in der Störgeräuschreduktion oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt jedoch zu hörbaren Artefakten. Im Rahmen der Arbeit soll eine Rekonstruktion des Nutzsignals zur Behebung dieser Artefakte entwickelt werden. In Anlehnung an das Image Inpainting aus der digitalen Bildverarbeitung, wird dieser Rekonstruktionsprozess für den Fall von Sprachsignalen als Speech Inpainting bezeichnet.

Abhängig von der Frequenzbreite und Dauer der fehlenden Signalanteile (Lücken) existieren dabei verschiedene Ansätze, wie z.B. die Bandbreitenerweiterung oder Packet Loss Concealment. Diese Verfahren sind jedoch meist nur auf Zeit- oder Frequenz-begrenzte Lücken ausgelegt. Für Zeit- und Frequenz-abhängige Störungen, wie z.B. eine Autohupe, sind diese Algorithmen i.d.R. nicht geeignet.

In dieser Arbeit sollen daher Verfahren entwickelt werden, welche solche speziellen Lücken auf Basis der ungestörten Anteile rekonstruieren können. Aufgrund der vielversprechenden Ergebnisse beim Image Inpainting bieten sich hierzu Ansätze aus dem Bereich des Machine Learning an. Es sollen zunächst geeignete Sprach-Features, wie beispielsweise die in der Spracherkennung häufig eingesetzten Mel Frequency Cepstral Coefficients (MFCCs), recherchiert und selektiert werden. Anschließend sollen aussichtsreiche Machine-Learning-Algorithmen ausgewählt, implementiert und auf Basis der selektierten Sprach-Features trainiert werden. Dabei sollen inbesondere typische Methoden, wie z.B. Support Vector Machines und Random Forest Trees, untersucht werden. Die ermittelten und implementierten Algorithmen sollen miteinander sowie mit einem simplen Interpolationsverfahren verglichen werden.

zurück