Colloquium - Details

You will receive information about presentations in time if you subscribe to the newsletter of the Colloquium Communications Technology.

All interested students are cordially invited, registration is not required.

Master-Vortrag: Enthallung zur Erhöhung der Robustheit von automatischen Spracherkennern

Sebastian Nagel
25. November 2015
14:00 Uhr
Hörsaal 4G IKS

Automatische Spracherkennung hat vermehrt Einzug in den Alltag gehalten. Die Zuverlässigkeit der Spracherkennung hängt jedoch noch stark von den akustischen Bedingungen ab. Bei großer Entfernung zwischen Sprecher und Mikrofon und in verhallten Räumen wird die Erkennungsleistung durch Nachhall beeinträchtigt. Im Rahmen der Masterarbeit wurden die Beeinträchtigungen eines Spracherkenners durch Nachhall sowie Maßnahmen zur Verbesserung von dessen Robustheit experimentell untersucht.  

Es konnte gezeigt werden, dass insbesondere später Nachhall zuverlässige Spracherkennung unmöglich machen kann. Je mehr Energie in den späten Reflexionen liegt, desto schlechter fallen die Erkennungsraten aus. Durch Anpassungen am Spracherkenner selbst kann dieses Problem nur teilweise behoben werden. Eine andere Möglichkeit besteht darin, Sprachsignale schon vor der Spracherkennung durch Enthallungsalgorithmen vorzuverarbeiten. Beide Ansätze wurden im Rahmen der Arbeit untersucht.  

Mehrere Enthallungsalgorithmen wurden im Hinblick auf ihre Eignung als Vorverarbeitung eines Spracherkenners verglichen. Besonders gut eignete sich ein Algorithmus auf Basis von linearer Prädiktion. Er konnte in der experimentellen Untersuchung die Auswirkungen von Nachhall in vielen Fällen aufheben und ist in der Arbeit ausführlich beschrieben. Durch Simulationen konnte auch gezeigt werden, dass die Enthallung mit diesem Algorithmus robust gegenüber Störgeräuschen ist.   

Als eine Möglichkeit, durch Anpassungen am Spracherkenner die Robustheit gegenüber Nachhall zu erhöhen, wurden angepasste akustische Modelle untersucht. Gute Ergebnisse erzielte diese Maßnahme erst, nachdem auch der zeitliche Kontext des Erkenners erweitert wurde. Die besten Ergebnisse erzielte schließlich eine Kombination aus Vorverarbeitung und angepasstem Spracherkenner.

back