Student Theses - Details

Rekonstruktion des Phasenspektrums von Sprachsignalen mit Machine Learning Algorithmen

Betreuer: Lars Thieling

Themengebiet: Sprachsignalverarbeitung, Machine Learning

Kategorie: Masterarbeit (MA), Bachelorarbeit (BA)

Status: offen

Tools: Matlab, Python

Aufgabenstellung:

Audio- bzw. Sprachsignale sind häufig Störungen ausgesetzt, bei denen das Nutzsignal in Frequenz-
und/oder Zeit-begrenzten Anteilen verzerrt wird. Ein Ansatz, z. B. in der Störgeräuschreduk-
tion oder der Echo-Kompensation, ist es, diese Verzerrungen zu dämpfen oder zu entfernen.
Dies führt jedoch zu hörbaren Artefakten. Hier kann eine Rekonstruktion des Nutzsignals zur
Behebung dieser Artefakte herangezogen werden. Abhängig von der Frequenzbreite und Dauer
der fehlenden Signalanteile (Lücken) existieren dazu bereits verschiedene Ansätze, wie z. B. die
Bandbreitenerweiterung oder Packet Loss Concealment. Häufig wird dabei nur das Betragsspek-
trum rekonstruiert und das Phasenspektrum aufgrund seiner vergleichsweise geringeren Relevanz
unverändert übernommen. Dies führt dazu, dass zwar die Verzerrungen im Betragsspektrum
reduziert werden können, im Phasenspektrum jedoch nicht.


In dieser Arbeit sollen daher Verfahren entwickelt werden, welche eine Rekonstruktion des
Phasenspektrums von Sprachsignalen ermöglichen. Hierzu bieten sich Ansätze aus dem Bereich
des Machine Learnings an. Zunächst soll das gesamte Phasenspektrum als fehlend angenommen
und ausgehend vom Betragsspektrum eine Rekonstruktion durchgeführt werden. Anschließend
sollen lediglich Lücken im Phasenspektrum betrachtet werden, wodurch weitere Informationen
über die fehlenden Anteile zur Verfügung stehen. Die erzielten Ergebnisse sollen mit dem weit
verbreiteten Griffin-Lim Algorithmus verglichen werden. Aufgrund der eher geringen Relevanz
der Phase ist ein wichtiger Aspekt der Arbeit, einen geeigneten Tradeoff zwischen erzielter
Performance und benötigter Rechenkomplexität zu finden. Daher spielt vor allem eine möglichst
komprimierte Darstellung der Phase eine zentrale Rolle. Hier können eventuell in Anlehnung an die
Mel Frequency Cepstral Coefficients oder anderen populären Sprach-Features, welche größtenteils
auf Basis des Betragsspektrums ermittelt werden, neue Features für das Phasenspektrum ermittelt
bzw. entworfen werden.

back