Projektbereich A des SFB 360

Zusammenfassende Darstellung des Projektbereiches A

Für situierte künstliche Kommunikatoren ist die Verankerung in ihrer Umwelt die entscheidende Grundlage. Erst Wahrnehmungen und ihre kognitive Verarbeitung ermöglichen gezieltes Handeln. In diesen Sprachhandlungskontexten sind die Kommunikationspartner in einen gemeinsamen sensomotorischen Kontext eingebunden. Die These einer engen Interaktion zwischen Sprache und dem visuellen Weltkontext ist durch die bisherigen Arbeiten eindeutig belegt. Die Einbindung in den gemeinsamen visuellen Kontext hat durchgreifende Auswirkungen auf die Struktur und Durchführung von Dialogen. Dabei spielen nicht nur die Wahrnehmung und Interpretation von Objekten im unmittelbaren Konstruktionsszenario, sondern auch die Wahrnehmung und Interpretation von Gesten und Handlungen des Kommunikationspartners eine wichtige Rolle. Andererseits beeinflussen Sprache und weitere akustische Signale die Steuerung der visuellen Wahrnehmung. Sprachliche, akustische und visuelle Perzeption basieren damit auf den aktuellen sensoriellen Daten, der Erinnerung an vorangegangene Wahrnehmungen, deren Interpretation, und an längerfristig gelernte Modelle von Begriffen, Handlungen, Episoden und Kategorien. Dieser integrierten Sicht wird durch die neue Organisation dieses Projektbereichs verstärkt Rechnung getragen. Ziel des Projektbereichs ist somit ein vollständiges symbol grounding für den situierten künstlichen Kommunikator im Konstruktionsszenario des SFB.

In der dritten Förderungsphase widmete sich das Projekt B1 den Mechanismen der Interaktion und Koordination sprachlicher und visueller Information. Im Zentrum der Untersuchungen standen in diesem Zeitraum die dynamischen Aspekte der Aggregierung einzelner Objekte und der automatische Wissenserwerb über komplexe Objekte. Für deren Modellierung wurde in Kooperation mit D3 eine Gedächtnisarchitektur entwickelt, die neben der Speicherung gelernter komplexer Objekte eine inkrementelle Erkennung ermöglicht. Resultate aus die Erkennung von Handlungen werden als Unterstützung der Aggregaterkennung und Modellierung eingesetzt. Die zunehmend engere Kopplung zwischen dem Projekt B1 zur Interaktion sprachlicher und visueller Informationsverarbeitung zu perzeptionsorienierten Methoden und Modellen legt eine Integration der dort begonnenen Arbeiten in den Projektbereich A nahe. Die Referenzen zwischen sprachlicher und visueller Information werden sehr signalnahe etabliert. Die Informationsströme interagieren bereits auf der subsymbolischen Ebene und generieren so gemeinsam die Symbole und deren grundlegenden Relationen für die weitere Verarbeitung. Die Leitidee der Konstitution und Verankerung von Bedeutung durch die Integration multipler Verarbeitungsströme wurde in der Interpretation visueller Daten in den Teilprojekten A1 und A2 umgesetzt. Die hybride neuronale und semantische Repräsentation in A1 wurde durch Relationen zwischen Erkennungseinheiten einerseits und symbolischen Merkmalen andererseits ergänzt. Die perzeptuelle Organisation von Kanten- und Regioneninformationen ist in A2 um dynamische Aspekte und um Mosaikbilder als visuelles Gedächtnis erweitert worden. Mit dem in der dritten Phase neu etablierten Projekt A4 wurde eine Sprachperzeptionskomponente für die Anforderungen des künstlichen Kommunikators initiiert.

In der neuen Projektphase wird diese zu einem aktiven Zuhörer weiterentwickelt. Mit dem damit verbundenen Verzicht auf ein Nahbesprechungsmikrofon und dem Übergang zur mehrkanaligen Aufnahme wird eine akustische Wahrnehmung eines größeren Umfeldes, eine natürlichere Kommunikation und eine gezielte akustisch-visuelle Aufmerksamkeitssteuerung ermöglicht. In dem neuen Teilprojekt A5 werden Entwicklungen zur Integration visueller Informationen aus den bisherigen Teilprojekten A1, A2 und B1 aufgegriffen und sowohl strukturell als auch algorithmisch in ein visuelles Front-End des situierten künstlichen Kommunikators zusammengeführt. Ergänzend zur Entwicklung der bisherigen Arbeiten zum bildorientierten Gedächtnis eines Mosaiks und den auf Konstruktionsobjekte und -handlungen konzentrierten Erkennern wird zentraler Untersuchungsgegenstand die Modellierung, Erkennung und das Erlernen lokaler Bewegungstypen sein. Als Beispiele seien Begriffe wie kippen oder rollen und der gesamte Komplex von Objekten in Händen genannt. Der Semantik globaler Bewegungen wie Trajektorien von Hand und Kopf oder dem Objektgreifen und -transport dienen weitere Untersuchungen. Visuelles und sprachlich-akustisches Front-End stehen in engstem Zusammenhang mit dem Bereich Sprach-Bild-Interaktion. Durch die in allen drei Projekten konsequent verfolgte hybride und gemischt daten- und modellgetriebene Verarbeitung wird eine eng gekoppelte symbolische und subsymbolische Interaktion zwischen den Projekten möglich. Die Interaktion und Integration der Verarbeitungsströme wird verstärkt. Basierend auf auditiver und visueller Wahrnehmung und deren Reziprozität, werden lernende Methoden zum symbol grounding realisiert. Sie integrieren auf der methodischen Seite neuronale, statistische, relationale und semantische Modelle und auf der inhaltlichen Seite generieren sie aus Sensordaten konsistente Ensembles aus Begriffen, Handlungen, Episoden und Kategorien sowie deren Beziehungen. Psycholinguistisch werden die kognitiven Faktoren erforscht, welche die Grundlage für die Robustheit der Bild-Sprach-Integration bei Menschen bewirken. Hier müssen vor allem die Herausbildung und Modifikation von Objekt- und Handlungskategorien untersucht werden, damit die perzeptiven Systemkomponenten adäquat im Kontext kooperativer Prozesse agieren und reagieren können.

Zur Startseite

Erstellt von: Anke Weinberger (2002-09-27).
Wartung durch: Anke Weinberger (2002-09-27).