Was haben Ernie und Bert mit NLP zu tun?

19. Oktober 2020 von David Jenkins

Natural Language Processing, gekürzt NLP, ist die maschinelle Verarbeitung natürlicher Sprache. Computer lernen, das gesprochene und geschriebene Wort mithilfe von Regeln und Algorithmen zu verstehen und zu verarbeiten. Doch was hat die Sesamstraße mit NLP zu tun?

Sprache durch Computer zu prozessieren funktioniert nur, wenn Wörter und Satzzeichen als Zahlen dargestellt vorliegen. Diese Darstellung wird Embedding genannt. Somit war es nur eine Frage der Zeit, bis das Allen Institut „Embeddings from Language Models“, kurz ELMo, veröffentlichte. ELMo war richtungsweisend. Aber nicht mal acht Monate später stellte ihn ein neues Model völlig in den Schatten: BERT (Bidirectional Encoder Representations from Transformers).

Außer das BERT die Sesamstraße-Nomenklatur quasi gesellschaftsfähig machte – inzwischen gibt es viele Modelle (darunter auch ein ERNIE), die nach den Muppets benannt sind – veränderte er die Art und Weise, wie NLP verwendet wird. Ob revolutionär oder nicht erfahrt Ihr in diesem Beitrag.

 

» Ihr lehrtet Sprache mir und mein Gewinn ist, dass ich weiß zu fluchen. «

William Shakespeare, “Der Sturm”

 

 

Anfänge der Sprachverarbeitung

» Ich freue mich, zu sagen, dass dieser Kandidat ein ehemaliger Kollege
von mir ist. «

(unbekannter Verfasser)

» Schweizer Chirurgen schneiden schlecht ab. «

(Quelle: ww.20min.ch, Stand 08.2020)

» Optiker nach Einbruch fassungslos. «

(Quelle: Schwarzwälder Bote, Stand 08.2020)

 

Beispiele wie diese werden im englischen „crash blossoms“ genannt und zeigen auf, wie schwierig Sprache ist. In den sozialen Netzwerken gibt es dafür sogar eigene Gruppen, die sich damit beschäftigen (z.B. https://www.facebook.com/perlendeslokaljournalismus/).

Wir Menschen finden es in der Regel einfach, aus mehreren Deutungen die gewollte zu erkennen; für unsere elektronischen Freunde ist das viel komplizierter. Es überrascht also nicht, dass der Mensch seit mehr als 60 Jahren an der Verarbeitung natürlicher Sprache durch Computer forscht.

IBM stellte 1954 ein automatisches Übersetzungssystem vor - für das Militär zur Zeit des Kalten Krieges von sehr großem Interesse. Nach einem ergebnislosen Jahrzehnt und weiteren Debakeln wie das Speech Understanding Research (SUR) Projekt, das Wörter nur erkannte, wenn sie in einer bestimmten Reihenfolge gesprochen wurden, stellte das Pentagon Funding für KI ein. Diese Entscheidung wird für den ersten „KI Winter“, wo Finanzierung für KI-Forschung fast gänzlich ausblieb, mitverantwortlich gemacht.

Doch es gab Lichtblicke. Diese fanden dort statt, wo Forscher die Grenzen ihrer Hardware kannten. In den Sechzigern entwickelte Joseph Weizenbaum das Programm ELIZA, eine künstliche Psychotherapeutin. Weizenbaum umschiffte das Problem der Gesprächsführung durch geschickte Auswahl einer Therapieform nach Carl Rogers. In diesem Ansatz werden die Aussagen des Patienten einfach hinterfragt, weil Rogers glaubte, die Antworten auf die Fragen der Patienten im Patienten selber zu finden. Weizenbaum schrieb in einer eigens entwickelten Computersprache Suchmuster, die die Basis für einen entsprechenden Dialog bildeten:

 

 

NLP Gesprächsführung

Mit geschickter Auswahl der Therapieform werden Probleme der Gesprächsführung umschifft (© eXXcellent solutions)

 

Obwohl ELIZA nach "Schema F" antwortet, fand es Zustimmung bei den Nutzern. Weizenbaums eigene Assistentin bat ihn, den Raum zu verlassen, damit sie ein privates Gespräch mit ELIZA führen konnte. Eine Version von ELIZA haben wir im Unterhaltungsbereich von SALT, unserem Modulsystem für den Pepper-Roboter, integriert.

 

Anfänge der Sprachverarbeitung

Timeline: Anfänge der Sprachverarbeitung eXXcellent solutions)

 

 

» Wie jeder Dichter weiß, ist ein System eine Sichtweise auf die Welt. «

Gerald Weinberg, Introduction to General Systems Thinking 

 

 

Ein Meilenstein - Chatbots


ELIZAs erster Patient, PARRY, der eine Person mit paranoider Schizophrenie simulierte, kam 1972. Parry vermittelte unterschiedliche Ebenen von Vertrauen oder Angst. Für PARRY stand die Mafia hinter allem. Diese Grundeinstellung verlinkte er mit verschiedenen Reizwörtern, die dann sein Gemüt meist negativ beeinflussten.

JABBERWACKY erweiterte die Suche nach Schlüsselworten, so dass nicht nur der aktuelle Satz herangezogen wurde, sondern die ganze, in einer Datenbank gespeicherte Konversation. Sein Nachfolger A.L.I.C.E. führte dann die erste allgemeine Dialogsprache für Chatbots ein.

Dialogsprachen stellen bis heute die Basis der meisten Chatbots. Einfache Dialogsprachen sind konzeptionell mit ELIZA vergleichbar: Muster in der Eingabe führen zu einer vorgefertigten Antwort.

Manche Sprachen, wie QiChat für Pepper, erlauben eine Auswahl von unterschiedlichen Antworten, um Spontanität zu simulieren, was nur begrenzt funktioniert. Bei diesen Chatbots muss der Dialogdesigner alle erdenklichen Konversationen vorhersehen und das ist ein Problem.

Moderne, KI-basierte Chatbots, wie Googles Dialogflow, sind etwas flexibler. Sie können auf Beispielphrasen trainiert werden – das NLP-System kümmert sich darum, ähnliche Phrasen in einer konsistenten Art und Weise zu interpretieren. Wenn eine solche Phrase (oder Intent) erkannt wird, wird die zugehörige Aktion ausgeführt.

Solche Systeme haben sich in der Praxis bewährt. Das Problem, alle möglichen Gespräche vorherzusehen, bleibt jedoch. Chatbot-Dialoge sind intensiv in der Wartung und können unvorhergesehene Fehler in der Logik aufweisen. Bei eXXcellent solutions forschen wir daher nach Alternativen.

 

Entwicklung von Chatbots

Timeline: Entwicklung von Chatbots eXXcellent solutions)

 

 

» Der Mensch ist am wenigsten er selbst, wenn er für sich selbst spricht. Gib ihm eine Maske und er wird Dir die Wahrheit sagen. «

Oscar Wilde, The Critic as Artist

 

 

Rekurrente neuronale Netze - RNNs und LSTMs

 

Alles Geschriebene hat eine zeitliche Reihenfolge inne. Wir lesen in westlichen Schreibsystemen von links nach rechts. Andere, flexiblere Systeme (z.B. Japanisch), erlauben weitere, teilweise beliebige Richtungen, aber immer werden die Symbole im Takt der Zeit gelesen.

1980 brachte Roland den TR-808 Drumcomputer auf dem Markt. Künstler von Marvin Gaye bis Talking Heads schätzten die Möglichkeit einen Rhythmus hinzuzufügen, der ein ganzes Lied in Staccato durchdrängte. Der Achtelnotenrhythmus war Herzblut der Achtziger.

Ob das alles Hopfield und Rumelhart beeinflusste, werden wir nicht erfahren. Fest steht aber, dass sie in dieser Zeit rekurrente neuronale Netze (RNNs) entwickelten, die Textfolgen verarbeiten konnten (rekurrent = Wiederholung von gleichen sprachlichen Formen in einem Text). RNNs sind wie eine Kette aneinandergereihter Drumcomputer. Mit jedem Takt wird ein Notensymbol verarbeitet und als Ton ausgegeben. Gleichzeitig kennt der Ton sein eigenes Notensymbol und seinen Vorgänger und kann dies in der Abfolge entsprechend berücksichtigen. RNNs verstehen somit Kontext, wenngleich der Kontext sich fast ausschließlich auf das Ergebnis des Vorgängers beschränkt.

Klassischerweise werden neuronale Netze trainiert, indem das Ist-Ergebnis gegen das Soll-Ergebnis geprüft wird. Das Fehlersignal wird als Feedback zurückgeführt und beim nächsten Trainingsdurchlauf hoffentlich verbessert.

Ein Problem der RNNs ist, dass das Feedback quasi durch die Zeit zurück zum Anfangsspieler reisen muss. Das bedeutet mehr "Zurück in die Vergangenheit" als "Zurück in die Zukunft". Das Signal wird dabei so stark geschwächt, dass es wie ein Echo im Verlauf der Zeit verhallt.

 

 

NLP Signalabschwächung

Signalabschwächung (© eXXcellent solutions)

 

 

Es dauerte ein Jahrzehnt, bevor eine neue Architektur dieses Problem löste – LSTMs (Long Short-Term Memory). Mit Abstand der verwirrendste Name, den jemand einer Architektur gegeben hat. Meine Frau ist Architektin, Sie können mir also glauben. 😉

Die Münchener Autoren Sepp Hochreiter und Jürgen Schmidhuber erklären nicht wirklich, wie sie zu dem Namen kamen. Sicher ist aber, das LSTMs eine Leitung durch alle ihre Drumcomputer fädeln, so dass der Hall nicht mehr abgeschwächt wird. Das bringt für das Training deutlich erkennbare Vorteile mit sich.

Die Achtziger waren nicht nur musikalisch vorreitend (oder ohrenbetäubend, je nach Standpunkt) – sie waren auch der Anfang der Spieleindustrie. Als Spiele sich von Pac-Man bis Quake entwickelten, nahm der Bedarf an Hochleistungsgrafiken zu.

Die ersten Grafikkarten setzten sich rein mit der Problematik der graphischen Darstellung auseinander. Irgendwann erkannten KI-Forscher die Vorteile dieser hochparallelen GPUs (Graphics Processing Units) zum Trainieren komplexer Modelle. Wegen ihres Aufbaus als zeitliche Sequenz lassen sich RNNs und LSTMs schwer parallelisieren. Die NLP-Welt schaute also zu, während Kollegen:innen in der Bild- und Videoverarbeitung immer größere Modelle entwickelten und trainierten. Das verdient Aufmerksamkeit.

 

Rekurrente neuronale Netze - RNNs und LSTMs

Timeline: Rekurrente neuronale Netze - RNNs und LSTMs eXXcellent solutions)

 

 

» Liberté, egalité, fraternité! «

» Give me liberty, or give me death! «

» Brexit means Brexit! «

Freiheitsrufe aus Frankreich, der USA und Großbritannien

 

 

Die Revolution - Der Transformer

 

Zwischen Revoluzzerparole und Schwachsinn zu unterscheiden ist manchmal schwierig (Brexit). "Attention is all you need" gehört eindeutig zur ersten Kategorie. Die Autoren, fast alle bei Google, warfen Kind und Kegel (RNNs und LSTMs) aus dem Fenster. An deren Stelle trat der Transformer.

Der Transformer ist ein komplett rekurrenzfreies Enkodier-Dekodierer-Modell. Kern des Transformers stattdessen ist „Multi-Head Attention“. Dabei handelt es sich um eine Funktion, die aus vorher gemerkten Infos und aus einer Vorgängerebene des Netzwerks eine Ausgabe berechnet. Somit können wir die Aufmerksamkeit eines menschlichen Lesers wiedergeben, der beim Lesen eines Satzes immer weiß, was er sich merken muss.

Die simultane Bereitstellung von Wissen überall im Netzwerk sowie der Abschied von der Rekurrenz erlaubt endlich das Trainieren mit GPUs.

Es ist schwer, die Bedeutung dieses Fortschritts zu vermitteln. Mark Twain’s Erkenntnis, dass literarische Deutsche den Atlantik überqueren können, bevor sie das Verb preisgeben, war jetzt kein Hindernis mehr. Attention merkte sich alles, was wichtig war. Noch wichtiger waren die GPUs.

Endlich hatten NLP-Forscher Zugang zu großen Modellen. Und das nutzten sie aus. Google-Forscher trainierten 2018 das BERT-Modell mit 340 Millionen Parametern an 64 TPUs (Tensor Processing Unit, Google’s eigene Prozessoren für KI).

Normalerweise ist es schwierig, genügend annotierte Daten zu bekommen. Wenn allerdings in jedem Satz einzelne Wörter gestrichen (oder besser gesagt maskiert) werden, kann das Modell trainieren, die fehlenden Wörter zu rekonstruieren.

Somit hat BERT immer annotierte Daten, denn die maskierten Wörter sind bekannt und dienen als Lernziel. BERT trainiert auch ein zweites Ziel: den nächsten Satz in der Eingabe vorherzusagen.
Damit war es BERT möglich, auf das ganze Wikipedia zu trainieren. Hinzu kamen weitere 11.000 Bücher, die die Forscher herumliegen hatten. Das war aber nicht alles. Google veröffentlichte das vortrainierte Modell. Forscher und Anwender konnte es mit wenig Aufwand auf ihr Anliegen spezialisieren. Die Revolution war komplett.

 

Entwicklung BERT NLP

Timeline: Von der französischen Revolution bis BERT  eXXcellent solutions, Transformers-RID-Logo ®  - Quelle: ©HASBRO www.hasbro-newsroom.de/, Stand 08.2020)

 

 

» Denn wer die deutsche Sprache beherrscht, wird einen Schimmel beschreiben und dabei doch das Wort »weiß« vermeiden können. «

Kurt Tucholsky, "Vormärz", in: „Die Schaubühne“

 

Die 7 Arten, wie Computer natürliche Sprache verarbeiten

 

Man sieht, die Verarbeitung natürlicher Sprache ist sowohl komplex als auch vielfältig. Deswegen haben wir ein übergreifendes Rahmenwerk für die Einordnung von NLP-Aufgaben entwickelt.

Bei eXXcellent solutions sehen wir sieben Arten, wie der Computer natürliche Sprache verarbeitet:

  1. Im Gespräch interagieren: Interaktiver Dialog mit dem Computer.
  2. Informationen suchen: z.B. in Geschäftsdokumente mit kundenspezifischen Vokabeln.
  3. Emotionen ermitteln: Neben klassische Sentiment-Analysen auch Gebiete wie Begleitung eines Produktlaunches oder Entwurf von Werbung
  4. Informationen bereitstellen: Unstrukturierte Informationen in Betriebshandbüchern oder Verträgen extrahieren und nützlich machen.
  5. Text einordnen: Identifikation von interessanten Themen oder Trends.
  6. Berichte schreiben: Der Computer erstellt selber ein Dokument aus ihm bereitgestellten Fakten.
  7. Sprache übersetzen: Texte möglichst sinngleich von einer Sprache in einer anderen übertragen.

 

Dieses Rahmenwerk ist konkret genug, um Kundenanliegen klassifizieren zu können. Es bietet aber auch ausreichend Abstraktion, um Erkenntnisse von Geschäftsfeld zu Geschäftsfeld zu übertragen.

Wir setzen dabei hauptsächlich moderne Transformer-Modelle ein. Diese trainieren wir auch gern spezifisch auf Kundendaten. Mit wenig Aufwand haben wir beispielsweise ein allgemeines Frage-Antwort-System gebaut, das sehr gute Ergebnisse anhand der Wissensbasis von Wikipedia liefert.

Ein interaktives Dialogsystem für unseren Pepper-Roboter ist in der Lage, generelle Fragen zu einem neuen Produkt zu beantworten. Wissensbasis sind hierbei zwei DIN A4-Seiten aus einem Marketing-Flyer.

Die Erfahrung aus unseren Projekten zeigt, dass auch für komplexe Dokumente (z.B. aus der Automobilbranche) bei entsprechendem Einsatz für das Training und die Modellierung gute Ergebnisse erreicht werden können

 

Auf der anderen Seite hat ein Experiment mit einem strukturierten Dokument aus der Automobilbranche gezeigt, dass solche komplexen Dokumente mehr Zeit für ein adäquates Ergebnis benötigen.

Wir forschen weiter!

Wie Sie sehen, sind noch längst nicht alle Probleme, die BERT und NLP mit sich bringen, gelöst. Aber wir forschen weiter, da wir mit NLP eine der Schlüsseltechnologien der Digitalisierung sehen.

Häufig findet man die Ursache für manuelle Tätigkeiten und den daraus resultierenden Prozessbrüchen in Dokumenten mit Freitextfeldern. Die Aufbereitung solcher Informationen, so dass die darin enthaltenen Erkenntnisse in anderen Systemen bereitgestellt, ausgewertet und für Entscheidungen genutzt werden können, sehen wir als eine der Herausforderungen der nächsten Zeit.

 

science-lightbulb Möchten Sie mit uns über die aufregenden Möglichkeiten von KI und NLP diskutieren? Oder befassen Sie sich gerade mit dem Thema Digitalisierung und stehen vor verschiedenen Herausforderungen?

Treten Sie mit mir, David Jenkins, oder unserem Practice Head of AI, Thomas Bierhance, in Kontakt

 

In unseren "Lightning Talks" erscheinen demnächst Videos zum Thema "Neural network architectures for natural language processing". Am Besten gleich für unseren Newsletter anmelden und keinen Beitrag mehr verpassen. 

video-clip-1Hier geht es zu unseren Lightning Talks!

 

 

Weitere Informationen

Haben Sie weitere Fragen zum Thema Natural Language Processing?

Schreiben Sie mir E-Mail. Ich freue mich auf Ihre Kontaktaufnahme!

emaildavid.jenkins@exxcellent.de

 

Möchten Sie Pepper in Aktion erleben oder erfahren, was Pepper und SALT alles können?

bubble-chat-information-2-1Pepper, der Roboter-Gefährte.

bubble-chat-information-2-1Ihre Kunden werden staunen, was Pepper alles kann! Unser Modulsystem SALT.

Über David Jenkins

Inselflüchtig wurde David Jenkins bereits 1985 - seitdem lebt er mit seiner Familie in und um München. Seine Laufbahn umfasste alles von Echtzeit-Embedded-Programmen, CAD-Software, Preismodellen für Finanzinstrumente bis hin zur Fahrzeugteileprognose. Seit dem Studium mathematisch interessiert, treibt er die KI-Aktivitäten von eXXcellent solutions in München voran. Und dass sein Sohn Gegengifte für Schlangentoxine erforscht, findet er cool.

Tags: Alle Blogbeiträge, Technologien, AI & Robotik, KI

Diesen Artikel teilen:


Newsletteranmeldung