Student Theses - Details

End-to-End Speech Inpainting Using Convolutional Network Structures

Betreuer: Lars Thieling

Themengebiet: Sprachsignalverarbeitung, Machine Learning

Kategorie: Masterarbeit (MA), Bachelorarbeit (BA)

Status: offen

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz-
und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z. B. in der Störgeräuschreduktion
oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt
jedoch zu hörbaren Artefakten. Im Rahmen der Arbeit soll eine Rekonstruktion des Nutzsignals
zur Behebung dieser Artefakte entwickelt werden. In Anlehnung an das Image Inpainting aus der
digitalen Bildverarbeitung, wird dieser Rekonstruktionsprozess für den Fall von Sprachsignalen
als Speech Inpainting bezeichnet.


Abhängig von der Frequenzbreite und Dauer der fehlenden Signalanteile (Lücken) existieren
dabei verschiedene Ansätze, wie z. B. die Bandbreitenerweiterung oder Packet Loss Concealment.
Diese Verfahren sind jedoch meist nur auf Zeit- oder Frequenz-begrenzte Lücken ausgelegt. Für
Zeit- und Frequenz-abhängige Störungen, wie z. B. eine Autohupe, sind diese Algorithmen i. d. R.
nicht geeignet.


In dieser Arbeit sollen daher Verfahren entwickelt werden, welche solche speziellen Lücken auf
Basis der ungestörten Anteile rekonstruieren können. Im Speziellen sollen dazu sogenannte
faltende Netzwerkstrukturen aus dem Bereich des Machine Learnings betrachtet werden. Diese
basieren auf der in der Signalverarbeitung fundamentalen Faltungsoperation und stellen somit
vielversprechende Kandidaten für das Speech Inpainting dar. Als Ausgangspunkt soll das von
DeepMind entwickelte Wavenet dienen, welches für die Anwendung des Speech Inpaintings
angepasst und anschließend evaluiert werden soll. Hierzu sollen zunächst die Zeitsignale direkt
(End-to-End), aber auch die Short-Time-Fourier-Transform als Ein- bzw. Ausgänge der neuronalen
Netze verwendet werden. Die implementierten und trainierten Netze sollen miteinander sowie
mit einem Fully Connected Feedforward Neural Network verglichen werden. Abhängig von der
erzielten Performance soll dies im Rahmen eines Hörversuches geschehen.

back