Visuelle KI

Visueller KI schreibt man Systemen zu, die in der Lage sind Bilder zu erkennen und zu interpretieren (hinsichtlich ihrer Bestandteile), bzw. bestimmte Muster wieder zu erkennen. Die Problematik an dieser Sache sollen die folgenden beiden Beispielbilder verdeutlichen (erst anschauen, dann versteckten Text durchlesen):

(Beiersdorf, Kurt (Hg.); Was ist Denken?; S.43)

' Ein schmiedeeisernes Tor mit stark perspektivischer Darstellung im Dom zu Paderborn. Die tunnelartige Raumtiefe ist nur vorgetäuscht.

(Beiersdorf, Kurt (Hg.); Was ist Denken?; S.44)

' Dalmatiner im Park

Wie man sieht, fällt es sogar uns ab und an schwer zu erkennen, welche Objekte nun eigentlich auf einem Bild, egal ob Foto oder Zeichnung, dargestellt sind. Wie könnte also ein Computer diese identifizieren?

Der erste Schritt könnte darin bestehen, die Linien bzw. Kanten der auf dem Bild dargestellten Objekte zu identifizieren. Dafür wird das Bild in einzelne (sehr kleine) Bereiche eingeteilt. Jeder Bereich bekommt einen eigenen Farbintensitätswert (bei schwarz-weiß Bildern, bei Farbbildern müsste man jede der drei Farben Rot, Blau und Grün einzeln betrachten). Dieser Wert beschreibt nun alle Bildpunkte in diesem Bereich.

Würde man also das Bild mit Hilfe dieser Werte reproduzieren, wäre es verschwommen und ungenau. Dies hat jedoch den Vorteil, dass die Kantenerkennung sich auf echte Kanten beschränkt und nicht das Muster des Teppichbodens (oder auch andere unwichtige Dinge) mit registriert.

Nun wird die Differenz der Intensitätswerte benachbarter Felder Untersucht, ist diese größer als ein vorher festgelegter Wert, so ist davon auszugehen,, dass sich an dieser Stelle eine Kante befindet, da ein abrupter Übergang von einem Farbton zum Anderen besteht. Die Ausgabe eines solchen Kantenerkennungssystems würde dann etwa so aussehen:

(Cawsey, Alison; Künstliche Intelligenz im Klartext; S. 161)

Natürlich müssen nun die einzelnen Kantenpunkte noch zu Linien verbunden bzw. vereinfacht werden und zwar so, das auch teilweise verdeckte Kanten als durchgängig erkennbar sind. Außerdem muss noch bestimmt werden, welche Kanten denn nun wirklich Begrenzungslinien eines Objektes sind, denn das Design des Bildgegenstandes wird ja im Beispiel oben auch mit abgebildet.

Dazu kann man zum einen erneut die Farbintensität einzelner eingegrenzter Flächen benutzen. So deuten verschiedene Farben oft auch auf verschiedene Objekte hin. Eine andere Möglichkeit ist die Suche nach T-förmigen Kreuzungen, welche, vor allem bei einfachen Bildern, auf ein Objekt vor einem Anderen hindeuten.

Natürlich werden schon hier Schwachstellen deutlich. So kann zum Beispiel die Helligkeit und damit die Farbintensität, bedingt durch Licht und Schatten unter natürlichen Bedingungen stark variieren, was zur Fehlinterpretation des gesamten Bildes führen kann.

Auch wenn nun die Begrenzungen der Objekte identifiziert sind, benötigt man noch weitere Informationen über die abgebildeten Dinge, bevor man die Objekte eindeutig identifizieren kann, zum Beispiel über ihre Entfernung vom Betrachter und ihre Orientierung im Raum. Denn schließlich sieht ein Haus aus jedem Blickwinkel und jeder Entfernung anders aus.

Hier kann man sich das Prinzip des Dreidimensionalen Sehens zu Nutze machen. Hat man 2 Bilder von verschiedenen Kameras (z.B. 2 Meter Abstand) so erscheinen ferne Gegenstände auf beiden Bildern fast am gleichen Ort, Nahe haben hingegen verschiedene Positionen. Natürlich entsteht hier wieder das Problem, wie denn der Computer bitteschön erkennen soll, dass es sich um denselben Gegenstand handelt, wenn er doch auf jedem Bild anders aussieht.

Eine ähnlich funktionierende Möglichkeit zur Bestimmung der Entfernung eines Objektes haben speziell bewegliche Systeme. Denn auch über die Änderung des Blickwinkels durch Bewegung ist eine solche Bestimmung möglich.

Außerdem bietet die Technik noch eine weitere Möglichkeit, das Sonar. Dies vereinfacht die Bestimmung der Entfernung enorm, ist jedoch nur möglich, wenn das System selbst das Bild aufgenommen hat, also wenn es sich zum Beispiel um einen Roboter handelt, der das Bild aufnimmt und sofort auswertet.

Hat das System nun die nötigen Informationen über die Bildobjekte, so kann es nun beginnen diese zu identifizieren, also herauszufinden, was im Bild zu sehen ist. Vorraussetzung dafür ist natürlich, dass es Informationen über mögliche Bildobjekte hat, also eine Datenbank mit welcher es die Objekte abgleichen kann. Diese sollte, wenn benötigt, auch zusätzliche Informationen über die Objekte enthalten. So wird es zum Beispiel einem Computer sicher schwer fallen ein Kind von einem Erwachsenen zu unterscheiden. Wenn er jedoch weiß, dass z.B. Kinder keine Autos fahren, so ist die Unterscheidung eventuell einfacher.

Natürlich hat diese gesamte Prozedur einige Schwachstellen, daher finden Techniken der Bilderkennung auch nur in begrenztem Maße Anwendung. Zum Beispiel wenn es um die Gesichtserkennung zu Fahndungszwecken geht oder eben um die Qualitätskontrolle von Werkstücken bei maschineller Fertigung. Auch Roboter oder Fahrzeuge, die lediglich zuSEHEN sollen, dass sie nicht von der Fahrbahn abkommen, oder irgendetwas über den Haufen fahren, sind realisierbar, nicht zuletzt, weil bei diesen Beispielen Teile des beschriebenen Vorganges wegfallen.

Zurück

(vgl. Cawsey, Alison; Künstliche Intelligenz im Klartext; S.155 ff.)