Universität Bielefeld - Sonderforschungsbereich 360

Objekterkennung mit neuronalen Netzen

Gunther Heidemann und Helge Ritter

Einleitung

Im Szenario des SFB 360 lösen ein menschlicher Instruktor und eine Maschine ("situierter künstlicher Kommunikator") gemeinsam interaktiv eine einfache Konstruktionsaufgabe. Das Ziel ist, aus Baufixteilen ein Flugzeugmodell zusammenzubauen.

Das visuelle front-end des Situierten Künstlichen Kommunikators (SKK) hat die Aufgabe, aus Realbildern echtzeitnah alle für Konstruktion und Diskurs relevanten Informationen über die jeweilige Montagesituation zu gewinnen. In der ersten Ausbaustufe gilt es, die auf einem Labortisch liegenden Baufixteile und teilmontierten Aggegate zu erkennen. Diese Aufgabe bietet interessante Probleme im Bereich Computer Vision. Da die zu identifizierenden Objekte in beliebiger Lage im Bild erscheinen können, muß ein Erkennungssystem entwickelt werden, das sowohl rotationsinvariante Objekterkennung gewährleistet als auch die nötige Robustheit gegenüber Skalierungen aufweist.

Das zu entwickelnde Objekterkennungssystem des SKK muß einerseits bereits in der ersten Ausbaustufe die nötige Geschwindigkeit und Robustheit besitzen, andererseits jedoch so konzipiert sein, daß die Übertragung bzw. Erweiterung auf wesentlich komplexere Visionaufgaben möglich ist. Dabei handelt es sich insbesondere um die Erkennung teilverdeckter Objekte, z.B. um in Aggregate eingebaute Baufixteile. Eine weitere zentrale Anforderung ist die Integrierbarkeit in den SKK. Es müssen nicht nur auf Anfrage anderer Module des SKK die visuell verfügbaren Informationen bereitgestellt werden, sondern auch umgekehrt die von anderen Modulen gelieferten Informationen zur Bildanalyse verwendet werden.

Deshalb wurde ein hybrider Ansatz gewählt, der die Fähigkeiten künstlicher neuronaler Netze (KNN) und semantischer Netze vereint. Während sich KNN vor allem für die Akquisition und Repräsentation signalnahen Wissens eignen, das nur schwer explizit modellierbar ist, bieten semantische Netze die Möglichkeit der Wissensstrukturierung im high-level Bereich und die zur Ankopplung von Sprache (bislang) notwendige symbolische Repräsentation.

Es wurde ein Hybriderkenner realisiert, der aus einem schnellen neuronalen Erkenner zur Generierung von Objekthypothesen und einer im semantischen Netzwerksystem ERNEST realisierten Analysestufe besteht. Während der neuronale Erkenner rein datengetrieben, "auf den ersten Blick" gewonnene Information liefert, überprüft die semantische Analysestufe die Hypothesen anhand expliziter Modelle durch eine Regionen-basierte "visuelle Inspektion". Damit besteht eine hohe Synergiemöglichkeit zwischen beiden Stufen: Der neuronale Erkenner generiert Hypothesen robust und mit der nötigen Geschwindigkeit, die semantische Analysestufe wird durch die Suchraumeinschränkung in der Überprüfungsphase erheblich beschleunigt. Die semantische Analysestufe dient zum einen der modellgetriebenen Verifizierung, zum anderen wird hier die Ebene symbolischer Repräsentation erreicht, die Voraussetzung für die Integration in das Gesamtsystem ist. Zudem besteht die Möglichkeit des Ausbaus zu einer selektiven Aktivierung neuronaler Erkenner durch die semantische Analysestufe. Im vorliegenden Report wird der neuronale Objekterkenner und seine Integration in das Hybridsystem vorgestellt.

Viele bestehende Objekterkennungssysteme basieren bereits im low-level Bereich in hohem Grad auf der Ausnutzung expliziten Wissens über die spezielle Erkennungsaufgabe wie der Gestalt der Objekte oder den Beleuchtungsbedingungen. Die Verwendung expliziten Wissens sollte jedoch in den signalnahen Stufen der Bildanalyse im wesentlichen aus zwei Gründen soweit wie möglich vermieden werden. Erstens erfolgt der Erwerb expliziten Wissens hauptsächlich dadurch, daß ein menschlicher Programmierer es in geeigneten Beschreibungsformalismen "von Hand" eingibt. Für komplexe Objekte ist diese Vorgehensweise jedoch zu aufwendig. Zweitens ist explizites Wissen wie beispielsweise die Modellierung geometrischer Relationen nicht unbedingt für die Erkennung der Objekte brauchbar (sehr wohl dagegen für Aufgaben wie die visuelle, modellgetriebene Inspektion oder eine 3D-Rekonstruktion), da das Erscheinungsbild eines Objekts in erster Linie durch die Reflexionseigenschaften seiner Oberfäche bestimmt wird, insbesondere unter natürlichen Beleuchtungsbedingungen. Aus diesen Gründen erscheint eine Objekterkennungsarchitektur sinnvoll, die zumindest einen Teil des für die signalnahe Verarbeitung erforderlichen Wissens aus der Präsentation von Beispielen erlernen kann.

Künstliche neuronale Netze haben die Fähigkeit, Klassifikationsaufgaben aus Beispielen zu erlernen. Der Einsatz von KNN für die Objekterkennung hängt jedoch entscheidend von der "Qualität" des Merkmalsvektors ab, der aus den zu klassifizierenden Bilddaten extrahiert wird. Die Merkmalsextraktion sollte einen niedrigdimensionalen und "leicht klassifizierbaren" Vektor liefern. Dies bedeutet, der Merkmalsvektor sollte robust (wenn nicht invariant) gegenüber affinen Transformationen, Beleuchtungsänderungen und Rauschen sein. Ist dies nicht gegeben, so steht zu erwarten, daß das für die Klassifizierung erforderliche KNN sehr groß sein muß und daher erheblichen Rechen- und Speicheraufwand verursacht. Noch kritischer ist die Tatsache zu bewerten, daß für das Training eines derartigen Netzwerks ein entsprechend großer Trainingsdatensatz erstellt werden müßte.

Obgleich es äußerst schwierig -- wenn nicht unmöglich -- wäre, einen Satz von Merkmalen zu finden, der die Forderungen nach niedriger Dimensionalität, Robustheit und hoher Spezifität generell erfüllt, ist es durchaus möglich, Merkmals-Detektoren zu generieren, die eine spezielle Erkennungsaufgabe lösen. Hier besteht jedoch erneut die Gefahr, explizites Wissen über die gegebene Aufgabe durch entsprechende Konstruktion der Merkmals-Detektoren einfließen zu lassen. Deshalb ist es wünschenswert, nicht nur das zur Klassifikation eingesetzte KNN aus Beispielen zu trainieren, sondern auch die Merkmalsextraktion selbst.

Die Lösung dieser Aufgabe könnte im Prinzip durch ein entsprechend großes Netzwerk erfolgen, beispielsweise ein Mehrlagenperzeptron, das nach dem Backpropagation-Algorithmus trainiert wird und als Eingabe direkt die Pixeldaten erhält. Ein Mehrlagenperzeptron bildet in den unteren Schichten ebenfalls Merkmals-Detektoren in Gestalt entsprechend spezialisierter Neurone. Dieser Weg erscheint jedoch wenig effizient, da auf die Bildung der Merkmals-Detektoren keinerlei Einfluß ausgeübt werden kann. Es ist zu erwarten, daß ein Netzwerk, das nicht nur die Klassifikationsaufgabe, sondern auch die Bildung der Merkmalsextraktion leisten muß, extrem hohen Trainingsaufwand erfordert.

Für die datengetriebene, low-level Objekterkennung wurde in Teilprojekt A1 deshalb eine Architektur entwickelt, bei der die Merkmale durch Gaborfilter extrahiert und anschließend von einem KNN vom Type Local Linear Map (LLM) klassifiziert werden. Die Architektur wurde durch Arbeiten von Drees und Ritter zur Handposturerkennung motiviert. Als ein erster Schritt in Richtung der geforderten Generierung von Merkmalsdetektoren wurde eine Energiefunktion über den Parametern der Gaborfunktionen aufgestellt, die ein Maß für die "Klassifizierbarkeit" des generierten Merkmalsvektors darstellt. Durch Optimierung der Gaborfilter bezüglich dieser Energiefunktion kann erreicht werden, daß ein Teil der erforderlichen Klassifikationsleistung bereits von den Merkmalsdetektoren erbracht wird. Deshalb reicht bereits ein relativ kleines LLM-Netz für die Klassifikation aus, das nur relativ wenige Trainingsdaten benötigt. Durch den geringen Rechenaufwand ist das System für echtzeitnahe Anwendungen prädestiniert. Die vorgeschlagene Architektur wurde auf einem Datacube implementiert und stellt das datengetriebene Front-end des hybriden Objekterkennungssystems dar.

Im folgenden Kapitel werden die Architektur des neuronalen Erkenners sowie das zur Klassifikation verwendete LLM-Netz und die Implementierung auf dem Datacube-System vorgestellt. Kapitel ?? stellt das Optimierungsverfahren für die Gaborfilter dar, Kapitel \ref{ErgebnisKapitel} das Training des Systems und die Klassifikationsergebnisse. Kapitel ?? erörtert die Integration des neuronalen Erkenners in das hybride System. Das letzte Kapitel enthält eine Zusammenfassung und einen Ausblick auf die geplanten Weiterentwicklungen.

Postscript-File (~262 k)

Anke Weinberger, 1996-03-14