Bilder finden statt Bilder suchen

Ein gutes Bildarchiv scheitert selten daran, dass zu wenige Bilder vorhanden sind. Es scheitert daran, dass niemand sie später wiederfindet. Dateinamen wie IMG_4827.jpg, Ordner wie Event_neu_final_2 und manuell gepflegte Schlagwörter reichen bei großen Bildbeständen nicht mehr aus. KI kann hier helfen: Ein Vision-Modell erkennt Inhalte, Motive, Szenen, Produkte, Farben, Personenanzahl oder Stimmungen. Geodaten können zusätzlich über Dienste wie Google Maps oder Photon von Komoot aufgelöst werden. Wirklich wertvoll wird das aber erst, wenn diese Informationen nicht nur in einer Datenbank stehen, sondern als saubere Metadaten in IPTC, XMP und EXIF geschrieben werden.

KI kann Bilder beschreiben. Ein Bildarchiv wird daraus aber erst, wenn diese Beschreibung als strukturierte Metadaten gespeichert wird: Keywords, Kategorien, Orte, Rechte, Personen, Produkte und Quellen.

Das Problem mit Bildarchiven

Unternehmen, Agenturen und Fotografen besitzen oft tausende oder Millionen Bilder. Produktfotos, Baustellenbilder, Referenzen, Events, Social-Media-Material, Pressematerial, Kampagnenbilder, Archivmaterial.

Solange der Bestand klein ist, funktioniert die Suche über Ordner. Irgendwann nicht mehr.

Dann sucht jemand „das Bild mit dem schwarzen Produkt vor Betonwand“, „die Referenz aus Wien“, „das Foto mit warmem Licht und Menschen im Raum“ oder „alle Bilder aus Tirol mit Außenansicht“. Wenn diese Informationen nicht als Metadaten vorhanden sind, bleibt nur manuelles Durchklicken.

Das ist keine Bildverwaltung. Das ist digitales Blättern mit wachsender Frustration.

Was KI Vision-Modelle leisten können

Ein Vision-Modell kann Bilder nicht nur als Datei sehen, sondern inhaltlich beschreiben. Es kann erkennen, was dargestellt ist: Innenraum, Außenaufnahme, Produkt, Person, Fahrzeug, Gebäude, Landschaft, Messestand, Maschine oder Leuchte.

Daraus lassen sich strukturierte Informationen erzeugen:

Hauptkategorie
Unterkategorie
freie Keywords
kontrollierte Tags
Produktbezug
Szene oder Nutzungssituation
Bildbeschreibung
Alt-Text für Barrierefreiheit
mögliche Personenanzahl
dominante Farben
Material- oder Oberflächenhinweise
Qualitätswarnungen
Vorschläge für IPTC Subject Codes oder Scene Codes

Wichtig ist die Struktur. Ein Satz wie „Das Bild zeigt eine moderne Bürosituation“ ist nett. Für ein Archiv ist er zu wenig.

Besser ist ein JSON-Ergebnis:

{
  "title": "Büroaufnahme mit Pendelleuchte",
  "description": "Innenaufnahme eines modernen Büros mit langer Tischgruppe und linearer Pendelleuchte.",
  "keywords": ["Büro", "Innenraum", "Pendelleuchte", "Arbeitsplatz", "moderne Architektur"],
  "category": "Referenz",
  "subcategories": ["Office", "Innenaufnahme"],
  "hierarchical_subjects": [
    "Architektur|Innenraum|Büro",
    "Licht|Pendelleuchte|Arbeitsplatzbeleuchtung"
  ],
  "alt_text": "Modernes Büro mit langer Tischgruppe und linearer Pendelleuchte über dem Arbeitsplatz.",
  "confidence": 0.86,
  "warnings": []
}

So entsteht nicht nur eine Beschreibung. Es entsteht verwertbares Archivwissen.

KI-Tags sind Vorschläge, keine Wahrheit

KI erkennt viel. Aber sie weiß nicht alles.

Sie kann eine Leuchte mit einem ähnlichen Produkt verwechseln. Sie kann einen Ort falsch ableiten. Sie kann eine Stimmung gut beschreiben, aber technische Eigenschaften überschätzen. Sie kann aus einem Bild nicht zuverlässig erkennen, ob eine Nutzungslizenz vorliegt.

Deshalb sollte KI nicht ungeprüft alle Felder befüllen. Ein guter Workflow trennt zwischen sicheren und unsicheren Informationen.

Sicherer sind oft allgemeine Tags: Innenraum, Außenaufnahme, Besprechungsraum, Produktfoto, Nachtaufnahme, Holz, Beton, Menschen, Landschaft.

Unsicherer sind konkrete Produktnamen, Personenidentitäten, genaue Orte, Rechteinformationen oder technische Spezifikationen. Diese Felder brauchen zusätzliche Datenquellen oder Freigabe.

Die KI ist hier kein Archivar mit Stempel. Sie ist eher ein sehr schneller Praktikant mit gutem Auge und gelegentlich zu viel Selbstvertrauen.

Warum Standards wichtig sind

Metadaten sollten nicht nur in einer eigenen Anwendung liegen. Sie sollten möglichst in Standards geschrieben werden, die viele Programme verstehen.

ExifTool ist dafür ein etabliertes Werkzeug. Es kann Metadaten in vielen Dateiformaten lesen und schreiben und unterstützt unter anderem EXIF, GPS, IPTC und XMP.

Für professionelle Bildverwaltung sind IPTC und XMP besonders wichtig. IPTC beschreibt unter anderem Felder für Beschreibung, Urheber, Copyright, Credit Line und Keywords; IPTC betont außerdem, dass Metadaten wesentlich sind, um digitale Medien zu beschreiben, zu identifizieren und zu verfolgen.

Das ist der Unterschied zwischen „unsere Software kennt die Tags“ und „das Bild trägt seine Informationen selbst“.

Wenn eine Datei weitergegeben wird, bleiben die Metadaten erhalten. Wenn sie in Lightroom, Photoshop, Bridge, DAM-Systemen, Fotodatenbanken oder anderen Tools geöffnet wird, sind die wichtigsten Informationen weiterhin sichtbar.

Geodaten: Koordinaten sind nur der Anfang

Viele Bilder enthalten GPS-Daten. Dann stehen Breiten- und Längengrad bereits in den EXIF-Daten. Das ist gut, aber für Menschen nicht besonders hilfreich.

48.2082, 16.3738 ist korrekt.
„Wien, Österreich“ ist brauchbarer.

Hier kommt Reverse Geocoding ins Spiel. Aus Koordinaten werden Ort, Land, Bundesland, Postleitzahl oder Straße. Photon von Komoot ist ein Open-Source-Geocoder auf Basis von OpenStreetMap-Daten. Er unterstützt unter anderem Reverse Geocoding, also die Auflösung von Koordinaten zu Adressen.

Der öffentliche Photon-Demo-Server kann genutzt werden, solange die Nutzung in einem vernünftigen Rahmen bleibt. Für größere Anfragezahlen empfiehlt Komoot ausdrücklich eine eigene Instanz; umfangreiche Nutzung des Demo-Servers kann gedrosselt oder gesperrt werden.

Für Unternehmen ist das wichtig: Kleine Mengen kann man extern abfragen. Große Archive sollte man kontrolliert planen, entweder über einen bezahlten Dienst oder über eine eigene lokale Geocoding-Instanz.

Google Maps, Serper und Photon

Für Geodaten gibt es verschiedene Wege.

Google Maps Platform arbeitet mit einem Pay-as-you-go-Modell je abrechenbarem Ereignis. Das ist professionell, gut dokumentiert und für viele Geschäftsanwendungen geeignet.

Serper.dev bietet Google-Suchergebnisse über ein Credit-Modell an und bewirbt unter anderem Top-up-Pakete ohne Monatsabo; die Preise lagen beim Abruf der Quelle je nach Paket zwischen 1,00 und 0,30 US-Dollar pro 1.000 Credits. Für einfache Orts- oder Kontextrecherchen kann das wirtschaftlich interessant sein, ersetzt aber nicht automatisch eine offizielle Maps- oder Geocoding-Strategie.

Photon ist besonders interessant, wenn Kontrolle und lokale Verarbeitung wichtig sind. Eine eigene Instanz vermeidet Abhängigkeit von einem öffentlichen Demo-Dienst und kann für große Archive sinnvoll sein. Photon benötigt laut Projektbeschreibung Java 21+, bei planetenweiter Datenbank rund 95 GB Speicher und empfohlen mindestens 64 GB RAM für einen reibungslosen Betrieb.

Die praktische Entscheidung lautet also nicht: Welcher Dienst ist immer besser?
Die Entscheidung lautet: Wie viele Bilder, welche Genauigkeit, welche Kosten, welche Datenschutzanforderungen?

Ein möglicher Workflow

Ein robuster Workflow sieht so aus:

Bild öffnen und vorhandene Metadaten lesen.
Prüfen, ob GPS-Koordinaten vorhanden sind.
Wenn GPS vorhanden: Ort per Reverse Geocoding auflösen.
Wenn kein GPS vorhanden: Ort aus Dateikontext, Auftrag, Ordner, Projekt oder manueller Eingabe ableiten.
Bild an ein Vision-Modell senden.
Strukturierte Vorschläge erzeugen: Titel, Beschreibung, Keywords, Kategorien, Alt-Text.
Tags gegen eigene Schlagwortlisten bereinigen.
Unsichere Werte markieren.
Metadaten in IPTC/XMP/EXIF schreiben.
Datei speichern und optional in Bildverwaltung oder Suchindex übernehmen.

Der wichtigste Punkt ist Schritt 7. Ohne kontrollierte Schlagwortlisten entstehen schnell Dubletten: „Büro“, „Office“, „Arbeitsplatz“, „Arbeitsraum“, „workplace“. Alles meint ungefähr dasselbe. Für Suche und Reporting ist das schlecht.

KI sollte deshalb nicht frei taggen dürfen. Sie sollte Vorschläge machen und diese gegen eine definierte Taxonomie abgleichen.

Praxisbeispiel für Fotografen

Ein Fotograf liefert 800 Bilder von einem Architekturshooting.

Früher müsste er jedes Bild manuell verschlagworten: Außenansicht, Innenraum, Lobby, Treppenhaus, Besprechungsraum, Fassade, Nachtaufnahme, Detail, Menschen, Produkt, Referenz.

Mit KI läuft es anders. Die Bilder werden analysiert. Das Modell schlägt Kategorien und Keywords vor. GPS-Daten werden ausgelesen und in Stadt, Region und Land übersetzt. Die wichtigsten Felder werden in IPTC/XMP geschrieben. Der Fotograf prüft Stichproben und korrigiert Sonderfälle.

Am Ende sind die Bilder nicht nur geliefert. Sie sind auffindbar.

Das ist besonders wertvoll, wenn Kunden später nach ähnlichen Bildern suchen: „alle Innenaufnahmen mit Holz“, „alle Außenaufnahmen in Österreich“, „alle Referenzen mit Besprechungsräumen“.

Praxisbeispiel für Unternehmen

Ein Unternehmen hat ein großes Archiv aus Produktfotos, Referenzen, Baustellenbildern, Eventfotos und Marketingmaterial.

Die Bilder liegen auf Netzlaufwerken, in SharePoint, in alten Projektordnern oder in einer DAM-Lösung. Die Dateien sind vorhanden, aber schlecht beschrieben.

Eine KI-gestützte Metadatenpipeline kann diese Bestände nachträglich erfassen. Sie erkennt Motive, Produkttypen, Räume, Einsatzsituationen und Bildqualität. Sie erzeugt Vorschläge für Keywords und Kategorien. GPS-Daten werden aufgelöst. Orte, Länder und Regionen werden ergänzt. Danach werden die Informationen direkt in die Bilddateien geschrieben und zusätzlich in einen Suchindex übernommen.

So entsteht aus einem Ablageort ein nutzbares Medienarchiv.

Der Wert liegt nicht nur in schönerer Suche. Vertrieb, Marketing, Produktmanagement und Dokumentation finden schneller passende Bilder. Doppelte Shootings werden vermieden. Rechte und Herkunft werden klarer. Und KI kann später auf einem besseren Bildbestand arbeiten.

Was in die Metadaten gehört

Ein sinnvoller Mindestumfang:

Titel
Beschreibung
Keywords
hierarchische Schlagwörter
Kategorie oder Genre
Aufnahmeort
Land und Region
GPS-Koordinaten, falls vorhanden
Urheber
Copyright-Hinweis
Credit Line
Nutzungsrechte
Alt-Text für Barrierefreiheit
Quelle oder Projektbezug
Erfassungsdatum
Confidence oder Prüfstatus außerhalb der Datei oder in einem Verwaltungsfeld

Nicht alles muss automatisch gesetzt werden. Aber alles sollte bewusst behandelt werden.

Gerade Rechteinformationen dürfen nicht erfunden werden. KI kann Inhalte erkennen, aber keine Nutzungserlaubnis herbeizaubern.

Grenzen und Risiken

Automatische Verschlagwortung braucht Kontrolle.

Menschen dürfen nicht falsch identifiziert werden. Orte dürfen nicht aus Bildinhalten geraten werden, wenn keine sicheren Daten vorhanden sind. Rechtefelder dürfen nicht automatisch erzeugt werden. Produktnamen sollten nur gesetzt werden, wenn ein Abgleich mit einer Produktdatenbank erfolgt.

Auch Datenschutz ist wichtig. GPS-Daten können sensibel sein. Nicht jedes Bild sollte mit präzisem Standort weitergegeben werden. Für interne Archive kann der Ort nützlich sein. Für öffentliche Weitergabe kann er problematisch sein.

Ein guter Workflow braucht daher Regeln:

Welche Felder darf KI setzen?
Welche Felder darf sie nur vorschlagen?
Welche Felder müssen geprüft werden?
Welche Metadaten werden bei Exporten entfernt?
Welche Tags stammen aus freier KI-Erkennung?
Welche Tags stammen aus geprüften Unternehmenslisten?

Ohne diese Regeln entsteht schnell ein sehr ordentlich verschlagwortetes Chaos.

Fazit

KI kann Bildarchive massiv verbessern. Aber nicht, indem sie nur schöne Bildbeschreibungen erzeugt.

Der Nutzen entsteht, wenn KI-Erkennung, Geodaten und klassische Metadatenstandards zusammenarbeiten. Vision-Modelle liefern Kategorien, Beschreibungen und Keyword-Vorschläge. Geocoding-Dienste ergänzen Orte aus Koordinaten. ExifTool, IPTC und XMP sorgen dafür, dass diese Informationen dauerhaft in den Dateien gespeichert werden.

Für Fotografen bedeutet das weniger manuelle Verschlagwortung und bessere Auffindbarkeit. Für Unternehmen bedeutet es mehr Wert aus bestehenden Medienbeständen.

Die einfache Regel lautet:

KI erkennt den Inhalt.
Geodienste klären den Ort.
Metadatenstandards machen beides dauerhaft nutzbar.

Find images instead of searching images - Bilder finden statt Bilder suchen