"Sprachlich-visuelle Integration"
Teilprojekt A6 im SFB 360

Projektleiter:
Prof. Dr. Gert Rickheit
Fakultät für Linguistik und Literaturwissenschaft
(0521) 106-53 10
gert.rickheit@Uni-Bielefeld.DE

Prof. Dr. Gerhard Sagerer
Technische Fakultät
(0521) 106-29 35
sagerer@TechFak.Uni-Bielefeld.DE

Mitarbeiter im Teilprojekt A6:
Dr. Constanze Vorwerg
Raum D4-116, Tel. 52 66
constanze.vorwerg@Uni-Bielefeld.DE

Dipl.-Inform. Volker Wendt
Raum V9-146, Tel. 48 81
vwendt@techfak.Uni-Bielefeld.dDE

Zusammenfassung
Die Interaktion sprachlicher und visueller Informationen ist in den letzten Jahren vermehrt in den Fokus der Erforschung und Entwicklung künstlicher kognitiver Systeme gerückt. Sie bildete auch den Forschungsgegenstand des Teilprojekts B1, das sich in den letzten Antragsphasen Problemen der Benennung von elementaren und komplexen Objekten sowie von Raumrelationen im SFB-Szenario widmete. Ausgangspunkt für die durchgeführten Arbeiten war die Idee experimentell-simulativen Vorgehens: In psycholinguistischen Experimenten wurden Phänomene menschlicher Kognition untersucht, und aus dabei gewonnenen Erkenntnissen entstanden sprachliche und visuelle Modelle (komplexer) Objekte und Methoden zur multimodalen Analyse von Konstruktionsprozessen. Durch probabilistische Ansätze zur integrierten Behandlung von Bild- und Sprachsignalen sowie durch Realisierung einfacher Gedächtniskonzepte und Verfahren zur Dialogsteuerung konnten sowohl robuste und flexible Komponenten zur Mensch-Maschine-Interaktion als auch zum automatischen Wissenserwerb über mechanische Aggregate und deren Montage bereitgestellt werden.

Die geplante Fortführung der in B1 begonnenen Arbeiten in einem neuen Teilprojekt A6 soll Sprach- und Bildverarbeitung (auf der Basis von sowohl Bottom-up- als auch Top-down-Prozessen) stärker fokussieren und der Bedeutung der in B1 erzielten Ergebnisse für Verfahren der künstlichen Perzeption Rechnung tragen. Die bisher schon sehr intensive Kooperation mit den Sprach- bzw. Bildperzeptionsprojekten soll weiter ausgebaut werden, wobei die Mittlerfunktion zwischen perzeptions- und referenzbezogenen Teilprojekten weiter besteht.

Nach der Verlagerung in den A-Bereich sollen die bisherigen Ergebnisse zur Sprach-Bild-Interaktion und zur generischen Behandlung komplexer Objekte im Verlauf von Konstruktionsprozessen auf algorithmischer Seite als Ausgangspunkt zur Entwicklung von Methoden zum Lernen komplexer Handlungen, Episoden und Kategorien dienen. D.h. es sollen Methoden zum symbol-grounding aus auditiv-sprachlichen und visuellen Wahrnehmungen sowie deren Wechselwirkungen entwickelt werden. Dabei darf sich die angestrebte semantische Kompetenz nicht in der Spezialisierung auf einmal wahrgenommene Ereignisse erschöpfen; es müssen vielmehr Generalisierungsmechanismen entwickelt werden, um zuvor erworbenes Wissen auch auf neue Situationen anzuwenden bzw. übertragen zu können. Dies erfordert die Implementierung kompexerer, aber flexibler Gedächtnismodelle, die autonom erworbenes Wissen über die Zeit vorhalten und erweitern aber auch kategorisieren können.

Im Mittelpunkt der psycholinguistischen Untersuchungen steht die experimentelle Erforschung der kognitiven Robustheit von Bild-Sprach-Integration. In enger Anlehnung an die algorithmischen Ziele müssen hier vor allem Fragen der Integration simultan oder sukzessiv verfügbarer auditiv-sprachlicher und visuell-bildlicher Informationen, zur Herausbildung neuer Kategorien und deren Modifikation, zum Wissenstransfer sowie zur Beteiligung von Gedächtnisprozessen beantwortet werden. Methodisch und technisch wird also auch weiterhin die experimentell-simulative Methode der Kombination empirischer, psycholinguistischer Untersuchungen und automatischen Spracherkennens und Verstehens sowie der Analyse visueller Daten verfolgt.


sfb-logo Zur Startseite Erstellt von: Anke Weinberger (2002-09-27).
Wartung durch: Anke Weinberger (2003-02-20).