Die Zukunft der Bildbeschreibung

In den letzten Jahren hat die Technik der automatischen Bild-Erkennung große Fortschritte gemacht. Apps wie TapTapSee zum Beispiel erkennen Objekte und können sie beschreiben. Es macht unheimlich viel Spaß auszuprobieren, was die App schon erkennen kann. Die Gesichtserkennung auf Fotos ist mittlerweile fast Mainstream.
Es gibt durchaus Blinde oder zumindest Leute, die ganz schlecht sehen und fotografieren. Andere wollen erfahren, was zum Teufel auf dem Foto abgebildet ist, dass sie da in ihrem überquellenden Sonstiges-Ordner gesammelt haben. Dafür wäre eine automatische Objekt-Erkennung äußerst hilfreich.

Cloud, Mustererkennung und künstliche Intelligenz

Es dürfte nur eine Frage der Zeit sein, bis die Erkennung von Objekten in Echtzeit – also in dem Moment, in dem man das Objekt fixiert, möglich wird. Die größte Latenz dürfte heute dadurch entstehen, dass die Intelligenz nicht im Smartphone, sondern in der Cloud steckt und dadurch abhängig davon ist, wie flott der Internet-Zugang und wie schnell die Server sind. Wenn wir zumindest einen Teil der Intelligenz zurück in die Geräte holen – was von der Performanz her kein Problem sein dürfte, dürften sich die Möglichkeiten für Blinde enorm verbessern. Ich könnte mir vorstellen, dass eine smarte Brille die Bilder aufnimmt und sie von einem zweiten Gerät verarbeitet werden. Die OrCam verspricht schon heute einiges, spielt aber auch in einer preislich höheren Liga.
Die Technik könnte auch bei Abbildungen im Internet genutzt werden. Alternativtexte sind vor allem im Web 2.0 unzureichend formuliert. Auf Facebook , Twitter oder WhatsApp werden viele Fotos geteilt. Die Bereitschaft der Leute, Fotos auch nur rudimentär zu beschreiben ist teils gering, teils vergessen sie es auch einfach. Twitter und WhatsApp haben alternative Bildbeschreibungen für Blinde gar nicht erst vorgesehen. Facebook glaubt ernsthaft, dass „Domingos de Oliveiras Foto“ ein passender Alternativtext für ein Foto ist, das Domingos de Oliveira eingestellt hat. Zumindest ist das der Text, der automatisch hinzugefügt wird, wenn der Uploader nichts in das entsprechende Feld schreibt. Das ist es natürlich nicht, ob ich den Uploader oder Fotografen kenne oder nicht, hilft mir bei der Bild-Erkennung nicht weiter.
Als Blinder hat man auch keine Lust, Zeit und Nerven dafür, die Leute ständig darauf hinzuweisen.
Abhilfe könnten automatische Erkennungs-Algorithmen wie in dem erwähnten TapTapSee schaffen. Wolfram Language, Microsoft Bilderkennung oder Google arbeiten ebenfalls an Tools zur automatischen Bild-Erkennung.
Für Tech-Größen wie Facebook und Twitter dürfte es weder technisch noch von der nötigen Rechenpower schwierig sein, solche Algorithmen zu integrieren. Damit könnten sie auch zumindest einen Teil der Kritik an ihrer schlechten Barrierefreiheit ausräumen. Möglich wäre natürlich auch, das Ganze via Browser-Erweiterung auf den Nutzer zu übertragen, dann spielt es keine Rolle, welche Plattform man nutzt.
Ob man dank dieser Beschreibungen die von Absender intendierte Aussage hinter dem Bild tatsächlich verstehen wird, ist leider schwierig zu beantworten. Oft genug verstehe ich den Witz auch nicht, wenn mir jemand den Bild-Inhalt erklärt.

Wo Manpower gefragt ist.

KI und Mustererkennung stoßen an ihre Grenzen, wo komplexe Beschreibungen gefragt sind. Kunstwerke können zwar als Anreihung von Objekten beschrieben werden, aber kein Kunstliebhaber würde sich damit zufrieden geben. Frau mit langen dunklen Haaren lächelt ist eine korrekte, aber doch unzureichende Beschreibung der Mona Lisa. Aber selbst hier könnten Algorithmen helfen, eine anständige Beschreibung zu formulieren. Es ist ja keine große Sache für einen Computer, Lichtverhältnisse oder Farbkombinationen auf einem Bild zu erkennen und zu beschreiben.
Hier kommt auch die Manpower ins Spiel. Es ist schon toll, wenn ein Mensch sich hinseetzt und eine detailierte Beschreibung eines Bildes formuliert. Da aber Kunst immer eine Frage der persönlichen Perspektive ist, ist es hilfreich, möglichst viele Beschreibungen verschiedener Personen zu haben. Nebenbei profitieren auch Sehende davon, denn sie erfahren über die Beschreibung Anderer oft etwas, was sie sonst übersehen hätten. Oder habt ihr nicht den Eindruck, dass wir oft nur oberflächlich auf Landschaften oder Fotos schauen? Die Beschreibung für Blinde von was auch immer zwingt die Sehenden dazu, sich intensiver mit einer Sache zu beschäftigen, als sie es sonst tun würden.