Kolloquium - Details zum Vortrag

Sie verwenden einen Browser, in dem JavaScript deaktiviert ist. Dadurch wird verhindert, dass Sie die volle Funktionalität dieser Webseite nutzen können. Zur Navigation müssen Sie daher die Sitemap nutzen.

You are currently using a browser with deactivated JavaScript. There you can't use all the features of this website. In order to navigate the site, please use the Sitemap .

Sie werden über Vorträge rechtzeitig per E-Mail informiert werden, wenn Sie den Newsletter des kommunikationstechnischen Kolloquiums abonnieren.

Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht erforderlich.

Master-Vortrag: Autoencoder für die Anwendung im Speech Inpainting

Thao Linh Vu
Freitag, 16. April 2021
11:00 Uhr
virtueller Konferenzraum

Sprache ist das wichtigste Kommunikationsmittel der Menschen. Sie kann sowohl analog von Person zu Person als auch über digitale Medien wie Telefonate, Sprachnachrichten etc. übertragen werden. Ähnlich wie Bilder leiden Audiosignale häufig unter lokalen Verzerrungen, die sich im Zeit- oder im Frequenzbereich befinden und z. B. durch Paketverlust verursacht werden. Durch die fehlenden Teile wird die Verständlichkeit beeinträchtigt und kann sogar die wichtigsten Inhalte der Sprache entfernen. Ein Ansatz z. B. in der Echo-Kompensation oder Störgeräuschreduktion, ist es diese Verzerrungen zu dämpfen oder zu entfernen. Dies führt jedoch zu hörbaren Artefakten. Durch die Rekonstruktion des Nutzsignals können diese Artefakte behoben werden. Diese Rekonstruktion wird im Kontext von Sprachsignalen als Speech Inpainting bezeichnet und kann die Verständlichkeit der Sprachsignale verbessern.

Aufgrund der vielversprechenden Ergebnisse beim Image Inpainting bieten sich hierzu Ansätze aus dem Bereich des Machine Learnings an. Ein entscheidender Faktor bei der Entwicklung neuronaler Netze spielt u.a. die Dimension der Trainingsdaten. Meist werden daher sogenannte Sprach-Features anstelle der rohen Audiodaten verwendet, um die Komplexität des neuronalen Netzes zu reduzieren. Mit der Reduzierung gehen natürlich Informationen verloren. Aus diesem Grund muss eine komprimierte Darstellung von Sprach-Features gefunden werden, die einen hohen Informationsgehalt besitzen. Eine Möglichkeit zur Dimensionsreduzierung ist der Autoencoder. Er versucht die Eingabe an der Ausgabe zu rekonstruieren, nachdem sie den sogenannten Bottleneck durchquert hat. In dieser Arbeit werden verschiedene Autoencoder-Modelle untersucht und inwiefern diese für die Anwendung im Speech Inpainting geeignet sind. Dabei werden Modelle direkt als Speech Inpainting Modell betrachtet und mit der klassischen Dimensionsreduzierungsmethode PCA verglichen.

zurück