Sprachsignalverarbeitung für Mensch-zu-Mensch und Mensch-Maschine Kommunikation

Reinhold Häb-Umbach

Institut für Elektrotechnik und Informationstechnik
Fachgebiet Nachrichtentechnik
Universität Paderborn

Montag, 31.01.2005, 16 Uhr c.t., H9
Sprache ist das wohl wichtigste Kommunikationsmedium des Menschen. Insofern ist auch seine maschinelle Verarbeitung von großer Bedeutung. Wir betrachten ein Szenario, bei dem sich der Sprecher frei bewegen kann und das Sprachsignal mit entfernten Mikrophonen aufgenommen wird. Ziel ist zum einen die Berechnung eines qualitativ hochwertigen, entrauschten Sprachsignals für nachfolgende Verarbeitungseinheiten (z.B. Spracherkennung) und zum anderen die Gewinnung von Informationen über den Sprecher und seine Umgebung.

Für das erste Ziel wurden Adaptionsverfahren entwickelt, die die Richtungskeule einer Mikrophongruppe auf den sich bewegenden Sprecher ausrichten. Die Verfahren basieren auf einer adaptiven Hauptachsenzerlegung des Kreuzleistungsdichtespektrums der Mikrophonsignale. Ein Vergleich mit Verfahren aus der Literatur zeigt die erhöhte Robustheit und Konvergenzgeschwindigkeit der vorgeschlagenen Methoden.

Wir alle wissen, dass ein Sprachsignal mehr transportiert als nur die gesprochenen Worte. Daher versuchen wir in der zweiten Zielstellung, neben der eigentlichen Spracherkennung auch den nichtverbalen Informationsgehalt aus dem akustischen Signal zu extrahieren, z.B. die Anzahl der Sprecher in einem Raum, die Sprecherposition, Sprecheridentität etc.

Der Vortrag gibt einen Überblick über die laufenden Forschungsarbeiten und Projekte.


sfb-logo Zur Startseite Erstellt von: Anke Weinberger (2004-01-25).
Wartung durch: Anke Weinberger (2004-01-25).