Egal ob es um Kundenanfragen, Vertragsdokumente oder Projektbeschreibungen geht – oft sind essenzielle Informationen in unstrukturierter Form verborgen. Die manuelle Bearbeitung ist nicht nur zeitaufwendig, sondern auch wenig effizient. Dank Natural Language Processing können Prozesse automatisiert, Daten gezielt extrahiert und wertvolle Ressourcen eingespart werden. Am Beispiel von Hotels zeigen wir im Folgenden, wie drei unterschiedliche KI-Modelle unstrukturierte Daten extrahieren und strukturieren, damit Unternehmen effizient arbeiten können.
Sähen Sie den Samen für Ihre KI-Transformation (© AI generiert mit Firefly by eXXcellent solutions)
Unstrukturierte Daten vs. strukturierte Daten
Unstrukturierte Daten stellen Informationen dar, die in keinem festen Datenmodell oder klar definiertem Schema vorliegen. Anders als etwa in Datenbanken, in denen Daten nach Feldern wie „Name“, „Datum“ oder „Betrag“ organisiert sind, existieren unstrukturierte Daten oft in Textform, ohne vordefinierte Ordnung. Dies macht es schwierig, auf einfache Weise auf relevante Informationen zuzugreifen und sie zu nutzen.
Bei Hotelbuchungen erhalten Unternehmen E-Mails, die nicht nur Buchungsinformationen, sondern auch Stornierungen, Beschwerden oder allgemeine Anfragen enthalten können. Diese E-Mails müssen zunächst automatisch in Kategorien wie Buchung, Stornierung, Beschwerde oder Sonstiges eingeteilt und anschließend die relevanten Daten extrahiert werden. Das Beispiel zeigt daher, wie Künstliche Intelligenz nicht nur zur Datenextraktion, sondern auch zur Kategorisierung von unstrukturierten Inhalten eingesetzt werden kann. OpenAI bietet hierfür erst seit kurzer Zeit ein Format an, welches wir in unserem Test noch nicht berücksichtigt haben.
unstrukturierte Daten vs. mit KI strukturierte Daten (© eXXcellent solutions)
Test mit drei KI-Modellen
Ein Großteil der Testdaten für die Klassifizierung wurden mit dem GPT-3.5 Turbo Modell generiert. Einzelne Mails wurden zusätzlich von Hand verfasst. Am Ende standen für jede der drei Kategorien – Buchung, Stornierung und Beschwerde – jeweils gleich viele Beispiele zur Verfügung, nämlich etwas mehr als 300 pro Kategorie. Für die Kategorie ‚Sonstiges‘ wurden die deutschen Texte aus dem Datenset SMS_Spam_Multilingual_Collection_Dataset verwendet. Im Rahmen unserer Entwicklung haben wir drei verschiedene KI-Modelle getestet: GPT-3.5 Turbo, GPT-4o und ein selbst gehostetes Modell auf Basis von Mistral-Nemo.
Kategorisierung unstrukturierter Daten
Das Ergebnis konnte sich sehen lassen. Unabhängig von dem gewählten Modell konnten die E-Mails zuverlässig und effizient klassifiziert werden. Alle Modelle kratzen an den 100% und scheitern nur an sehr zweideutig geschriebenen E-Mails.
Tabelle 1: Strukturierungspräzision der KI-Modelle (© eXXcellent solutions)
In der Tabelle wird deutlich, dass die alle Modelle vergleichbare Ergebnisse liefern. Wenn möglich, ist jedoch stets ein self-hosted Modell zu bevorzugen, da es die volle Kontrolle über die eigenen Daten bietet.
Dies zeigt, dass die verfügbaren Technologien zur E-Mail-Verarbeitung ausgereift sind und sich für diesen Anwendungsfall gut eignen. Welcher Ansatz gewählt wird, hängt von den individuellen Anforderungen und Vorlieben ab, da in der Performance kaum Unterschiede festzustellen waren.
Des Weiteren können ganz einfach beliebig viele Kategorien hinzugefügt oder auch der gesamte Anwendungsfall angepasst werden, da die Modelle kein Fine-Tuning benötigen, um sich anzupassen.
Extraktion relevanter Daten
Im zweiten Teil untersuchten wir, wie gut KI uns dabei unterstützen kann, E-Mail-Inhalte in ein JSON-Format zu überführen, das anschließend vollautomatisch weiterverarbeitet werden kann. Die Vorbereitung der Daten war hierbei aufwendiger, da jede E-Mail manuell gelesen und für den Vergleich in das erwartete Format überführt werden musste. Für diesen Benchmark haben wir 100 Datensätze erstellt, wieder wurden diese zum Teil durch GPT-3.5 Turbo und zum Teil von Hand erstellt.
Die KI erhielt die Daten zusammen mit der Information, in welchem Jahr sie verfasst wurden. Im Prompt war das gewünschte JSON-Format durch ein Beispiel vorgegeben, und die Anweisung lautete, ausschließlich ein JSON als Antwort zu liefern. Zusätzlich wurde spezifiziert, dass es sich um eine Buchungsanfrage für ein Hotel handelt.
Hier sind die Ergebnisse:
Tabelle 2-4: Testergebnisse Datenextraktion Ollama, GPT 3.5, GPT4o (© eXXcellent solutions)
Insgesamt zeigt sich deutlich, dass der Schritt von GPT-3.5 auf GPT-4 eine spürbare Verbesserung bringt. Die Daten werden deutlich zuverlässiger extrahiert, was die Leistungsfähigkeit des Modells unterstreicht. Allerdings bleibt das Zählen eine Herausforderung für LLMs, wodurch die Anzahl von Personen, Kindern und Erwachsenen oft nicht korrekt erfasst wird.
Erfreulich ist, dass unser lokal ausgeführtes, quantisiertes Modell mit den großen Playern gut mithalten kann. Lediglich bei der Erkennung von E-Mail-Adressen, Telefonnummern und Namen schneidet es deutlich schlechter ab als das leistungsstärkere GPT-4o.
Natürlich enthielten unsere Testdaten auch E-Mails, die keine Hotelbuchungen waren. Diese wurden zwar gut erkannt, allerdings nicht so präzise wie in dem vorherigen Szenario, bei dem die Modelle ausschließlich auf eine einzige Aufgabe fokussiert waren.
Erwähnenswert ist, dass das GPT-3.5-Modell den höchsten Recall-Wert bei der Interpretation der E-Mails erzielte. Dieser Wert gibt an, wie zuverlässig echte Buchungsanfragen korrekt erkannt werden. Ein Fehlurteil, bei dem eine Buchungsanfrage fälschlicherweise als "Sonstiges" klassifiziert wird, hätte für uns schwerwiegendere Konsequenzen als der umgekehrte Fall.
Je spezifischer der Anwendungsfall definiert ist, desto besser lässt sich ein Prompt optimieren und desto effizienter kann die KI arbeiten.
Fazit
Die Umwandlung von unstrukturierten Daten in strukturierte Formate stellt eine Herausforderung für Unternehmen dar. Künstliche Intelligenz bietet hier eine wertvolle Unterstützung, indem sie Texte automatisiert kategorisiert und relevante Informationen extrahiert. Unsere Tests zeigen, dass moderne KI-Modelle in der Lage sind, unstrukturierte E-Mails zu verarbeiten und die gewünschten Daten in nutzbare Formate wie JSON zu überführen.
Die Klassifizierungsergebnisse der verschiedenen KI-Modelle waren beeindruckend, unabhängig davon, welches Modell zum Einsatz kam. Selbst ein lokal ausgeführtes, quantisiertes Modell konnte mit den großen Cloud-basierten Alternativen mithalten. Der Fortschritt von GPT-3.5 zu GPT-4 zeigt, das mit der Zeit eine noch präzisere Datenextraktion möglich sein wird.
Insgesamt zeigen die Ergebnisse, dass KI in der Lage ist, selbst komplexe unstrukturierte Datenquellen wie E-Mails effizient zu verarbeiten. Dies spart nicht nur wertvolle Ressourcen, sondern eröffnet auch neue Möglichkeiten für die Automatisierung in verschiedenen Geschäftsbereichen. Je präziser der Anwendungsfall definiert wird, desto besser kann die KI optimiert und eingesetzt werden, um maximale Ergebnisse zu erzielen.
Weitere Informationen:
Sie verarbeiten große Mengen an unstrukturierten Daten und wollen diese Prozesse automatisieren? Dr. Stefan Pflüger ist Ihr Ansprechpartner und freut sich über Ihre Kontaktaufnahme!
Oder informieren Sie sich auf unserer Webseite über unsere Kompetenzen im Bereich KI und Natural Language Processing: |
Über Marius Würstle
|
Marius Würstle ist Software Engineer bei der eXXcellent solutions gmbh in Ulm. Seit 2021 unterstützt er dort die Java- und Web-Entwicklung. Als Mitglied der Gilde AI | ML | Data Science bringt er sein Fachwissen im Bereich KI in die Firmenaktivitäten mit ein. LinkedIn-Profil Marius Würstle
|
Tags: Alle Blogbeiträge, Technologien, KI & Analytics, Wissen & Weiterbildung