Prof. Dr. Gerhard Sagerer
Technische Fakultät
(0521) 106-29 35
sagerer@TechFak.Uni-Bielefeld.DE
Dr. Jochen Steil
Technische Fakultät
(0521) 106-60 66
jsteil@TechFak.Uni-Bielefeld.DE
Dipl.-Inform. Frank Röthling
Raum M6-108, Tel. 29 42
froethli@TechFak.Uni-Bielefeld.DE
Die meisten Arbeiten zu Lernverfahren gehen von sehr weitgehend vorstrukturierten Informationsquellen aus. Prominente Beispiele sind überwachtes Lernen von Zielausgabewerten, unüberwachtes Lernen von Clusterungen oder auch das Lernen von Steuerungsaufgaben mit einer (meist kleinen) Zahl vorher genau festgelegter Variablen (Stabbalance-Problem, Trajektorienlernen). Hier existieren mittlerweile gut verstandene Ansätze (gradientenbasiertes Lernen, Supportvektor-Ansätze, Vektorquantisierung, Q-Lernen), um Lernen in solchen Situationen zu realisieren.
Für Lernen in realen Umgebungen bildet die bei den genannten Verfahren vorausgesetzte Vorstrukturierung jedoch einen essentiellen Teil der Lernaufgabe selbst: das System muss in typischerweise sehr hochdimensionalen Sensordaten relevante, niedrigerdimensionale Datenausschnitte und Regularitäten selbst entdecken und zur Verbesserung seiner Fähigkeiten nutzen. Bisherige Lernansätze scheitern dabei in der Regel an den sehr großen Suchräumen, die unter solchen Bedingungen exploriert werden müssen.
Im neuen Teilprojekt D6 wollen wir erforschen, inwieweit sich diese Schwierigkeit durch eine Verbindung zweier Elemente überwinden lässt:
Die Erprobung dieses Ansatzes soll dabei am Beispiel des Imitationslernens von Handgriffen erfolgen. Im mehrfingrigen Greifen bündeln sich zahlreiche hochentwickelte Fähigkeiten unseres kognitiven Systems: die Erkennung von Objektform, Art und Lage; die darauf und auf die Verwendungsabsicht bezogene Auswahl eines Griffs, die zugänglichkeitskontingente Gestaltung des Zugreifens selbst und die nachfolgende sofortige Anpassung von Fingerpositionen und Kräften zwecks Maximierung der Griffstabilität.
In dem Projekt soll ein Roboter eine sprachlich kommentierte Abfolge von Handgriffen eines menschlichen Instrukteurs visuell beobachten und mit einer Mehrfingerhand zu imitieren versuchen. Dabei wird der menschliche Instrukteur gegebenenfalls auf die Robotergriffe bezogene sprachliche Rückmeldungen bzw. Korrekturanweisungen liefern. Rahmen wird dabei ein zwischen Mensch und Roboter ständig aufrechtzuerhaltender, gemeinsamer Aufmerksamkeitsfokus auf den jeweils gerade relevanten Teil der Szene bilden.
Auch unter der Beschränkung auf die Domäne von Handgriffen verbleibt damit noch eine erhebliche Herausforderung für die Realisierung einer geeigneten Lernarchitektur und ihrer Module. Die Erreichung des angestrebten Ziels ist nur deshalb aussichtsreich, weil das Vorhaben auf der mit den bisherigen SFB-Arbeiten erreichten, beträchtlichen Basis aufbauen und dabei insbesondere auf langjährige Vorarbeiten zur visuellen Erkennung von Handposturen, zur visuellen und sprachlichen Aufmerksamkeitssteuerung sowie zum Lernen von Teilfähigkeiten bei der Steuerung mehrfingriger Robotermanipulatoren und deren Hand-Auge-Koordination zurückgreifen kann.
Da das Teilprojekt konsequent auf dem vorhandenen integrierten Demonstrator (Aktorik-Prototyp) aufbaut und ihn ausbaut, ist eine enge Kooperation mit dem Architektur- und Evaluationsprojekt D3 selbstverständlich. Dabei wird das Gesamtszenario für das hier beantragte Projekt aber auch als Entwicklungs-, Anwendungs- und Testfeld z.B. für die Vision- und Sprachteilprojekte A5 und A6, sowie B3 (Referenz im Diskurs) zur Verfügung gestellt und gepflegt. Insbesondere im Rahmen von Teilprojekt D3, in dem das Zeitverhalten und die Benutzerfreundlichkeit der Gesamtarchitektur evaluiert werden sollen, wird es wie bisher unverzichtbar sein, das Gesamtsystem als Plattform zu verwenden.
![]() |
Erstellt von: Anke Weinberger (2002-09-27). Wartung durch: Anke Weinberger (2005-06-20). |