DFKI-Technologie lässt Roboter sehen

Was für Menschen intuitiv mit dem Spracherwerb einhergeht, ist die Ermittlung von Bedeutung, unabhängig von der tatsächlichen sprachlichen Äußerung. Das bedeutet, Mernschen können auf einer Vielzahl von Wegen eine Intention oder Referenz nachvollziehen und diese mit einem Objekt in unserer Lebenswelt in Verbindung bringen. Maschinen haben diese Fähigkeit bislang nicht – oder nur in unausgereifter Form. Das soll sich durch Mikasa, eine von DFKI-Forschenden entwickelte Technologie, ändern. Durch einen ’szenenbewussten Objekt-Erkenner‘ können nun auch Maschinen Rückschlüsse aus der Umgebung eines Referenzobjekts ziehen – und das Objekt so zielsicherer erkennen und korrekt definieren. Eine weitere Herausforderung für Programme ist es, relative räumliche Abhängigkeiten zu verstehen. ‚Der Stuhl vor dem blauen Monitor‘ ist schließlich mit einer anderen Perspektive ‚der Stuhl hinter dem Monitor“‚

Damit der Maschine klar wird, dass es sich bei beiden Stühlen tatsächlich um ein und dasselbe Objekt handelt, arbeiten die Forschenden mit einem sogenannten ‚multi-key-anchor concept‘. Das übermittelt die Koordinaten von Ankerpunkten im Blickfeld in Relation zu dem Zielobjekt und bewertet die Wichtigkeit von nahen Objekten anhand von Textbeschreibungen. So können semantische Rückbezüge helfen, das Objekt zu lokalisieren. Ein Stuhl ist typischerweise in Richtung eines Tisches platziert oder steht an einer Wand. Die Anwesenheit eines Tisches oder einer Wand definiert also indirekt die Ausrichtung des Stuhls.

Durch die Verknüpfung von Sprachmodellen, gelernter Semantik und der Wiedererkennung der Objekte im realen dreidimensionalen Raum erzielt Mikasa eine Genauigkeit von bis zu 78,6 Prozent (Sr3D Challenge). Damit konnte die Trefferquote zur Objekterfassung um rund 10 Prozent im Vergleich zu der besten bisherigen Technologie in diesem Bereich gesteigert werden!

Sehen heißt nicht Verstehen

Bevor ein Programm damit beginnen kann, seine Umgebung zu verstehen, muss es sie zunächst wahrnehmen können. Dafür liefern Sensoren ihre Daten und diese werden dann zu einem Gesamteindruck zusammengeführt. Den nutzt dann beispielsweise ein Roboter, um sich im Raum zu orientieren. Das Problem hier heißt Überlappung.

weiter auf www.i40-magazin.de

Sehen heißt nicht Verstehen

Schreibe einen Kommentar Antworten abbrechen