Kolloquium - Details zum Vortrag

Sie werden über Vorträge rechtzeitig per E-Mail informiert werden, wenn Sie den Newsletter des kommunikationstechnischen Kolloquiums abonnieren.

Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht erforderlich.

Bachelor-Vortrag: Sprachsynthese von gestörten Betragsspektren mit Methoden des maschinellen Lernens

Anatolii Skovitin
Dienstag, 22. März 2022
14:00 Uhr
virtueller Konferenzraum

Sprachsignale sind ein wichtiges Mittel der Kommunikation zwischen Menschen. In der digitalen Welt werden Sprachsignale über Telefone oder das Internet übertragen. Dazu müssen sie zunächst in den Zeit-Frequenzbereich transformiert werden. Ein resultierendes Zeit-Frequenzspektrum setzt sich zusammen aus dem Magnituden- und dem Phasenspektrum. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal verzerrt wird. Es gibt Methoden die diese Verzerrungen abschwächen oder entfernen können. Häufig wird jedoch nur das Magnitudenspektrum betrachtet und das Phasenspektrum bleibt aufgrund seiner vergleichsweise geringen Bedeutung unverändert. Allerdings werden sich im Normalfall die verarbeiteten Magnitudenspektren den perfekten Magnitudenspektren annähern. Andere Methoden liefern überhaupt kein Phasenspektrum, sondern nur eine Schätzung des Magnitudenspektrums.

In dieser Arbeit wird die Methode untersucht, die das Phasenspektrum von Sprachsignalen aus den geschätzten oder gestörten Magnitudenspektren rekonstruiert. Zu diesem Zweck werden Ansätze aus dem Bereich des maschinellen Lernens verwendet. Um die Methoden der Phasenrekonstruktion möglichst unabhängig von den spezifischen Störungsarten eines bestimmten Systems zu untersuchen, wird eine künstliche Störung verwendet. Die vorbereiteten Daten werden für das Training der neuronalen Netze verwendet. Die besten Modelle des neuronalen Netzes werden dann ausgewählt. Sie werden auf unterschiedlich gestörten Daten angewendet, um herauszufinden, wie gut die neuronalen Netze für verschiedene Arten von Störungen geeignet sind. Schließlich werden die verschiedenen Phasenrekonstruktionsmethoden angewendet und die resultierenden Sprachsignale bewertet. Außerdem wird ein Vergleich mit dem Griffin-Lim-Algorithmus durchgeführt.

zurück