Kinderleicht und doch unglaublich schwer lautet das Motto. Maschinen erlangen durch Bildverarbeitungssysteme die Fähigkeit zu sehen. Allerdings benötigt es mehr als nur ein Vision-System, um Objekte zu identifizieren und zu verstehen.
Ein Roboter fährt über eine Kiste mit bunten Bauklötzen in verschiedenen Formen und greift zielstrebig nach einem roten Quadrat und legt es neben der Kiste ab. Dieses Szenario erscheint Menschen denkbar einfach. Ein Roboter-Programmierer steht hier allerdings vor großen Herausforderungen. Der Griff in die Kiste zählt zu den schwierigsten Aufgabenstellungen in der Robotik. Dabei bereiten nicht das Greifen und Ablegen Probleme, sondern das Erkennen der unsortierten Objekte.
Definition von Sehen
Wahrnehmen. So definiert der Duden den Begriff Sehen. Aber wie soll eine Maschine, der dieses Sinnesorgan fehlt, etwas wahrnehmen? Wie bereits erwähnt, sind Bildverarbeitungssysteme die Lösung. Diese funktionieren ähnlich wie das menschliche Sehen, da sowohl der Mensch als auch eine Maschine ein Objekt nicht selbst sehen.
Beide „Augen“ – das menschliche und das technische – nehmen lediglich Reflexionen wahr, die ein Objekt zurückwirft. Beim Menschen sind hierfür Iris, Pupille und Netzhaut zuständig. Das Auge bündelt Licht, fokussiert und bildet Farben ab. Zum Schluss werden alle Information an das Gehirn weitergeleitet. Bei einer Maschine übernehmen diese Aufgaben Kameras, Blenden, Kabel und Recheneinheiten.
Trotz dieser vielen Ähnlichkeiten existieren doch große Unterschiede zwischen menschlichem und technischem Sehen. Der größte Unterschied liegt im Verstehen und der Interpretation der Bildinformationen. Ein Mensch lernt im Laufe seines Lebens die Bedeutung von Objekten sowie Situationen einzuschätzen und zu filtern. Bildverarbeitungssysteme hingegen identifizieren Objekte nur korrekt, wenn diese im Vorfeld programmiert oder antrainiert wurden. Ein Beispiel um dies zu verdeutlichen: Kleinkinder können Bananen und Äpfel oder Pferde und Kühe ohne Probleme voneinander unterschieden.
Ein technisches System hingegen muss für die unterschiedlichen Aufgabe angepasst sein, um unterschiedliche Obstsorten oder Tiere voneinander unterscheiden zu können. Dafür müssen Programmierer bereits im Vorfeld wissen, was ein System später zu leisten im Stande sein muss.
Wie kann eine Maschine letztendlich Objekte wahrnehmen?
Deep Learning und Neuronale Netze ermöglichen die Klassifizierung von Bildern. So erzielen Standardanwendungen gute Ergebnisse. Um dies zu erreichen, benötigen Bildverarbeitungssysteme eine große Menge an Bildmaterial. Häufig ist vor allem von fehlerhaften Objekten nicht genügend Lernmaterial vorhanden. Zudem ist es sinnvoll, nicht nur die gewonnenen Informationen bezüglich des Griffpunkts aus dem Bild zu entnehmen.
Es ist auch wichtig, sich Gedanken darüber zu machen, welche Handlungen sich aus diesen Informationen für den Roboter ergeben. Wenn beispielsweise ein Bauteil in verschobener Position beim Roboter ankommt, der Griffpunkt also etwas verändert ist, muss dieser die Situation erkennen, damit das Bauteil richtig gegriffen und im weiteren Verlauf richtig positioniert werden kann.
Deep Learning erweitert den bisherigen Anwendungsbereich
Durch die Kombination von Deep Learning und Mobilität ergeben sich neue Anwendungsfelder: von der roboterbasierten Ernte bis hin zu Anwendungen im Pflegebereich. Ein weiteres großes Zukunftsgebiet ist Embedded Vision. Dies beschreibt die direkte Einbettung von Bildverarbeitung in die Endgeräte und wird beispielsweise beim autonomen Fahren benötigt.
Hilfestellung durch Cloud-Systeme
All diese Gebiete erfordern von der Bildverarbeitung eine hohe Rechenkapazität. In Zukunft werden hier hauptsächlich Edge- und Cloud Computing-Konzepte eine Rolle spielen. Wenn Bildverarbeitungssysteme direkt aus der Produktionsanlage mit Cloud-Systemen verbunden sind, ergeben sich einige Vorteile:
- Logistik-ERP-Module können direkt Nachbestellungen anstoßen oder Ergebnisse aus der Qualitätssicherung transparent als Statistik in der Cloud sammeln und auswerten.
- Flexible Skalierbarkeit, die bei Bedarf jederzeit eine zusätzliche Speicherkapazität oder eine größere Rechenkapazität ermöglicht.
- Höhere Kosteneffizienz, da Nutzer nur für tatsächlich benötigte Ressourcen zahlen.
- Seriöse Cloud-Dienstleister bieten hochverfügbare, geclusterte Rechenzentren an, wodurch ein hohes Maß an Ausfallsicherheit gewährleistet ist.
All diese Herausforderungen zeigen, dass das menschliche Sehen und Urteilsvermögen dem technischen Sehen noch immer etwas voraus sind. Der Griff in die Kiste entwickelt sich jedoch durch Deep Learning und die Cloud immer weiter und verbessert sich stetig. Das menschliche Auge kann Sensoren zwar noch nicht vollständig ersetzen, aber durch Anpassungen und Training lassen sich sehr gute Ergebnisse erzielen. Zudem erfüllt ein Vision-System höchste Qualitätsansprüche, da ein Roboter 24/7 arbeiten kann und unterstützt so die Unternehmen produktiver und wettbewerbsfähiger zu sein.