Kategorie: Funktionierende Bausteine


  • Bilder finden statt Bilder suchen

    Ein gutes Bildarchiv scheitert selten daran, dass zu wenige Bilder vorhanden sind. Es scheitert daran, dass niemand sie später wiederfindet. Dateinamen wie IMG_4827.jpg, Ordner wie Event_neu_final_2 und manuell gepflegte Schlagwörter reichen bei großen Bildbeständen nicht mehr aus. KI kann hier helfen: Ein Vision-Modell erkennt Inhalte, Motive, Szenen, Produkte, Farben, Personenanzahl oder Stimmungen. Geodaten können zusätzlich…

  • Visuelle PDFs erfassen: Warum Text allein nicht reicht

    Manche PDFs sind keine Textdokumente. Sie sehen nur so aus. In Wirklichkeit sind sie gestaltete Wissensseiten: Tabellen, Diagramme, Produktbilder, technische Zeichnungen, Legenden, Fußnoten, Screenshots und erklärende Textblöcke. Wer solche Dokumente nur mit pdf2text oder einfachen PDF-to-Markdown-Werkzeugen verarbeitet, bekommt oft Text. Aber nicht unbedingt Wissen. Für KI, Suche und Vector Stores ist das zu wenig. Bei…

  • Strukturierte PDFs erfassen: Wenn Text wirklich Text ist

    Nicht jedes PDF muss zuerst in Bilder zerlegt und von einem Vision-Modell neu interpretiert werden. Manche PDFs bringen bereits eine brauchbare Struktur mit: Überschriften, Kapitel, Absätze, Listen, Inhaltsverzeichnis, Seitenzahlen und eingebetteten Text. Typische Beispiele sind Dokumentationen aus Word, LaTeX, Redaktionssystemen oder sauber gepflegten Handbüchern. Bei solchen Dokumenten ist der beste Weg oft nicht die visuelle…

  • PDF ist nicht gleich PDF

    Ein PDF wirkt oft wie ein fertiges Dokument. Für Menschen stimmt das meistens. Für KI ist es komplizierter. Manche PDFs enthalten saubere Überschriften, Textfluss, Inhaltsverzeichnis und klar erkennbare Absätze. Andere PDFs sind eher gestaltete Seiten: Tabellen, Grafiken, Produktbilder, Diagramme, technische Zeichnungen, Fußnoten und Textblöcke, die nur im Layout zusammen Sinn ergeben. Wer solche Dokumente für…

  • Warum PowerPoint keine gute Prozessdokumentation für KI ist

    Ein Prozessbild in PowerPoint sieht oft sauber aus. Kästen, Pfeile, Farben, Logos, vielleicht noch ein Screenshot aus dem ERP. Für Menschen ist das angenehm. Für KI ist es nur bedingt brauchbar. Denn die KI sieht zuerst ein Bild, nicht den Prozess. Sie muss Formen erkennen, Pfeile deuten, Text auslesen, Reihenfolgen erraten und daraus wieder eine…