Bachelorarbeit - Details

Untersuchung der statistischen Abhängigkeiten aufeinanderfolgender Sprachsegmente

Betreuer:Lars Thieling

Themengebiet: Sprachsignalverarbeitung, Machine Learning

Kategorie: Masterarbeit (MA)

Status: offen

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz- und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z.B. in der Störgeräuschreduktion oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt jedoch zu hörbaren Artefakten. Durch Rekonstruktion des Nutzsignals können diese Artefakte behoben werden. In Anlehnung an das Image Inpainting aus der digitalen Bildverarbeitung, wird dieser Rekonstruktionsprozess für den Fall von Sprachsignalen als Speech Inpainting bezeichnet.

Typischerweise wird das Sprachsignal beim Speech Inpainting in überlappende Segmente (Frames) mit einer Länge von etwa 20-40ms aufgeteilt und für jedes Frame eine Fast Fourier Transform (FFT) durchgeführt. Auf Basis der so ermittelten spektralen Darstellungen der Frames lassen sich die im Spektrogramm auftretenden Lücken mit Hilfe von Machine Learning Algorithmen schätzen. Ein Ansatz ist es z.B., die Schätzung einer Lücke in einem Frame ausschließlich auf Basis der restlichen ungestörten Frequenzanteile des gleichen Frames durchzuführen. Dadurch wird jedoch jedliche zeitliche Abhängigkeit der Frames vernachlässigt.

In dieser Arbeit sollen diese zeitlichen Abhängigkeiten der Frames untersucht werden. Hierzu bietet sich beispielsweise die aus der Informationstheorie bekannte Transinformation an. Angewendet auf zeitlich versetzte Signale lässt sich diese als Autotransinformation bezeichnen und damit ein statistischer Zusammenhang zwischen den Frames ermitteln. Auf Basis der Ergebnisse dieser Untersuchung soll eine geeignete Menge an Frames als Eingang für ein Deep Neural Network (DNN) zur Anwendung des Speech Inpaintings ausgewählt werden. Dabei spielt die zeitliche Auflösung des Sprachsignals, gegeben durch die Länge sowie den Überlappungsanteil der Frames, eine wichtige Rolle. Für unterschiedliche zeitliche Auflösungen soll die Performance des DNN ermittelt und dadurch ein geeigneter Trade-off zwischen erzielter Performance und benötigter Trainingsdauer bzw. -daten bestimmt werden.

zurück