Visuelle Aufmerksamkeit im Computer-Sehen

Ein Problem mit der Künstlichen Intelligenz ist, dass wir die “natürliche” Intelligenz nicht komplett verstehen. Daher ist es immer interessant, wenn Psychologie und verwandte Wissenschaften das Wissen darüber erweitern, wie Intelligenz eigentlich funktioniert. Und mit diesem Wissen kann man dann versuchen, die technischen Systeme in ähnlicher Form intelligenter zu machen.

Eines der schweren Probleme auf dem Weg zu intelligenten Systemen ist die Wahrnehmung der Umgebung. Ein Aspekt, der Smartphones interessanter macht als PCs, ist die Tatsache, dass diese Geräte mehr über die Umgebung wissen, in der sie sich befinden. GPS, Kameras, Mikrofone, Kompass, diverse Bewegungssensoren helfen den Smartphones an die Situation angepasste Angebote bereitzustellen. Ein anderes Gebiet, in dem die Sensorik entscheidend ist, sind autonome Fahrzeuge. Und es ist eben auch kein Zufall, dass ein großer Teil des menschlichen Gehirns für die Verarbeitung und Interpretation der Sinneswahrnehmung zuständig ist. Dominant ist dabei die visuelle Wahrnehmung.

Um die Menge an visuellen Informationen, die aufwändig verarbeitet werden müssen, in Grenzen zu halten, greifen Aufmerksamkeitsmechanismen, die unwichtige Informationen unterdrücken oder filtern. Damit ist es uns möglich, uns auf das Wesentliche zu konzentrieren.

In meiner Dissertation habe ich mich mit dem Thema auseinandergesetzt, inwiefern man diese Aufmerksamkeitsprozesse auf das Computer-Sehen übertragen kann. Neben der Dissertation sind zahlreiche Fachartikel zum Thema entstanden. In diesen zeige ich wie man die Modellierung von Aufmerksamkeitsprozessen anpassen muss, wenn man von den üblichen statischen 2D-Bildern hin zu einer dynamischen 3D-Umgebung geht. Ein neu vorgestellter mehrstufiger Ansatz zur Selektion der relevanten Objekte anhand unterschiedlicher Bildfeatures führt zu einem schrittweisen Aufbau eines Modells der Umgebung, die durch Tracking dieser Objekte aktuell gehalten wird.