"Architekturen zum Lernen durch Imitation in Sprach-Handlungssystemen"
Teilprojekt D6 im SFB 360

Projektleiter:
Prof. Dr. Helge Ritter
Technische Fakultät
(0521) 106-60 62
zhang@TechFak.Uni-Bielefeld.DE

Prof. Dr. Gerhard Sagerer
Technische Fakultät
(0521) 106-29 35
sagerer@TechFak.Uni-Bielefeld.DE

Dr. Jochen Steil
Technische Fakultät
(0521) 106-60 66
jsteil@TechFak.Uni-Bielefeld.DE

Mitarbeiter im Teilprojekt D6:

Dr. Robert Haschke
Raum M7-123, Tel. 60 66
rhaschke@TechFak.Uni-Bielefeld.DE

Dipl.-Inform. Frank Röthling
Raum M6-108, Tel. 29 42
froethli@TechFak.Uni-Bielefeld.DE

Zusammenfassung
Ausgangsthese des neuen Teilprojekts D6 ist: Situierte Kommunikation bildet eine Schlüsselvoraussetzung für die Realisierung von Lernen in künstlichen Systemen, wenn dieses über den Erwerb von "low-level"-Fähigkeiten hinausreichen soll. Ziel des Projekts bildet die Realisierung einer Lernarchitektur für einen Roboter, die sprachgestütztes Imitationslernen am Beispiel des Greifens demonstriert. Dazu wird das Projekt auf der bisherigen SFB-Demonstratorplattformentwicklung aufsetzen und diese konsequent fortsetzen, um die in diesem Rahmen bereits aufgenommenen Arbeiten zum Lernen von Teilfähigkeiten zu einer systematischen Lernarchitektur für Sprach-Handlungssysteme auszubauen.

Die meisten Arbeiten zu Lernverfahren gehen von sehr weitgehend vorstrukturierten Informationsquellen aus. Prominente Beispiele sind überwachtes Lernen von Zielausgabewerten, unüberwachtes Lernen von Clusterungen oder auch das Lernen von Steuerungsaufgaben mit einer (meist kleinen) Zahl vorher genau festgelegter Variablen (Stabbalance-Problem, Trajektorienlernen). Hier existieren mittlerweile gut verstandene Ansätze (gradientenbasiertes Lernen, Supportvektor-Ansätze, Vektorquantisierung, Q-Lernen), um Lernen in solchen Situationen zu realisieren.

Für Lernen in realen Umgebungen bildet die bei den genannten Verfahren vorausgesetzte Vorstrukturierung jedoch einen essentiellen Teil der Lernaufgabe selbst: das System muss in typischerweise sehr hochdimensionalen Sensordaten relevante, niedrigerdimensionale Datenausschnitte und Regularitäten selbst entdecken und zur Verbesserung seiner Fähigkeiten nutzen. Bisherige Lernansätze scheitern dabei in der Regel an den sehr großen Suchräumen, die unter solchen Bedingungen exploriert werden müssen.

Im neuen Teilprojekt D6 wollen wir erforschen, inwieweit sich diese Schwierigkeit durch eine Verbindung zweier Elemente überwinden lässt:

  1. Der Roboter muss nicht vollständig autonom explorieren. Stattdessen wird die im SFB-Szenario ermöglichte Verknüpfung von visueller Demonstration und sprachlichen Korrekturanweisungen genutzt, um Suchräume von vornherein auf vielversprechende Möglichkeiten zu reduzieren.
  2. Eine Lernarchitektur strukturiert den Informationsfluss innerhalb des Systems so, dass notwendige Lernschritte auf unterschiedlichen Ebenen erfolgen und von Fähigkeiten wie interner Prädiktion bzw. Simulation von Handlungskonsequenzen profitieren können.

Die Erprobung dieses Ansatzes soll dabei am Beispiel des Imitationslernens von Handgriffen erfolgen. Im mehrfingrigen Greifen bündeln sich zahlreiche hochentwickelte Fähigkeiten unseres kognitiven Systems: die Erkennung von Objektform, Art und Lage; die darauf und auf die Verwendungsabsicht bezogene Auswahl eines Griffs, die zugänglichkeitskontingente Gestaltung des Zugreifens selbst und die nachfolgende sofortige Anpassung von Fingerpositionen und Kräften zwecks Maximierung der Griffstabilität.

In dem Projekt soll ein Roboter eine sprachlich kommentierte Abfolge von Handgriffen eines menschlichen Instrukteurs visuell beobachten und mit einer Mehrfingerhand zu imitieren versuchen. Dabei wird der menschliche Instrukteur gegebenenfalls auf die Robotergriffe bezogene sprachliche Rückmeldungen bzw. Korrekturanweisungen liefern. Rahmen wird dabei ein zwischen Mensch und Roboter ständig aufrechtzuerhaltender, gemeinsamer Aufmerksamkeitsfokus auf den jeweils gerade relevanten Teil der Szene bilden.

Auch unter der Beschränkung auf die Domäne von Handgriffen verbleibt damit noch eine erhebliche Herausforderung für die Realisierung einer geeigneten Lernarchitektur und ihrer Module. Die Erreichung des angestrebten Ziels ist nur deshalb aussichtsreich, weil das Vorhaben auf der mit den bisherigen SFB-Arbeiten erreichten, beträchtlichen Basis aufbauen und dabei insbesondere auf langjährige Vorarbeiten zur visuellen Erkennung von Handposturen, zur visuellen und sprachlichen Aufmerksamkeitssteuerung sowie zum Lernen von Teilfähigkeiten bei der Steuerung mehrfingriger Robotermanipulatoren und deren Hand-Auge-Koordination zurückgreifen kann.

Da das Teilprojekt konsequent auf dem vorhandenen integrierten Demonstrator (Aktorik-Prototyp) aufbaut und ihn ausbaut, ist eine enge Kooperation mit dem Architektur- und Evaluationsprojekt D3 selbstverständlich. Dabei wird das Gesamtszenario für das hier beantragte Projekt aber auch als Entwicklungs-, Anwendungs- und Testfeld z.B. für die Vision- und Sprachteilprojekte A5 und A6, sowie B3 (Referenz im Diskurs) zur Verfügung gestellt und gepflegt. Insbesondere im Rahmen von Teilprojekt D3, in dem das Zeitverhalten und die Benutzerfreundlichkeit der Gesamtarchitektur evaluiert werden sollen, wird es wie bisher unverzichtbar sein, das Gesamtsystem als Plattform zu verwenden.


sfb-logo Zur Startseite Erstellt von: Anke Weinberger (2002-09-27).
Wartung durch: Anke Weinberger (2005-06-20).