In den letzten Jahren hat Künstliche Intelligenz (KI) und insbesondere die Verarbeitung natürlicher Sprache (NLP) eine Revolution erlebt, die von einer bestimmten neuronalen Netzwerkarchitektur angetrieben wurde: dem Transformer. Sie ist inzwischen allgegenwärtig und wird ständig weiterentwickelt und optimiert. Aufgrund der unglaublichen Popularität gibt es mittlerweile eine Vielzahl unterschiedlicher Transformatoren, die verschiedene Modell-Aspekte ansprechen.
In dieser Blogserie wollen wir einen Überblick über die verschiedenen Transformatoren geben.
Zunächst schauen wir uns die Wurzeln der bahnbrechenden neuronalen Netzwerkarchitektur an. In einer Arbeit aus dem Jahr 2017 stellte eine Gruppe von Forschern einen Challenger für den Status Quo im NLP vor, den Transformer. Sie kritisierten den damaligen Stand der Technik, bei dem rekurrente und konvolutionale neuronale Netze dominierten.
Die Forscher identifizierten drei kritische Punkte bei RNNs und CNNs:
Der letzte Punkt ist besonders kritisch. Nehmen wir das Beispiel der RNNs, so wissen wir, dass das Modell einen Satz oder ein Dokument Wort für Wort verarbeitet. Bis das RNN das letzte Element verarbeitet hat, ist der Informationsfluss nur noch von den unmittelbar vorausgehenden Elementen vorhanden. Gleichzeitig erreichen die Daten vom Anfang des Satzes nicht das Ende.
Die Abbildung unten zeigt, wie sich der Informationsfluss zwischen den Wörtern bewegt, während die Transformatoren einen Satz verarbeiten. Man sieht, wie parallele Informationsflüsse bei jedem Verarbeitungsschritt ein Wort erreichen und dabei Informationen über alle Wörter im Kontext erhalten. Dieser Ansatz löst alle drei Probleme der RNNs.
Die Transformer-Schicht, die in der Grafik unten visualisiert ist, wird zur Kernkomponente vieler zukünftiger Generationen von Transformer-Architekturen. Die Architektur hat zwei Kernkomponenten:
BERT (Bidirectional Encoder Representations from Transformers) ist einer der ersten Transformer, der nach seiner Anwendung im Kontext des Transfer Learnings einen Durchbruch erzielt hat. Transfer Learning ist ein Ansatz, bei dem ein neuronales Netzwerk zunächst auf eine bestimmte Aufgabe trainiert und anschließend auf eine andere Aufgabe angewendet wird. Diese Methode ermöglichte weitere Verbesserungen für die Erledigung der zweiten Aufgabe.
Die wichtigste technische Neuerung von BERT ist die maskierte Sprachmodellierung (MLM).
Die Technik ermöglicht ein bidirektionales Training, das den gleichen Informationsfluss wie im ursprünglichen Transformer Encoder verwendet. Da sie damals in einer Reihe von Benchmarks die beste Leistung zeigte, sorgte sie für große Aufmerksamkeit unter Experten in der natürlichen Sprachverarbeitung.
In der Abbildung unten sehen Sie ein Beispiel dafür, wie eines der Wörter, w4, maskiert wird. Dann muss das Modell raten: Was ist der tatsächliche Token im gegebenen Kontext? Nur 15 % der Wörter in einer Sequenz werden für das Training von BERT ersetzt, und zwar zufällig mit einer der folgenden Optionen:
Zusätzlich wird BERT mit der Vorhersage des nächsten Satzes (NSP) vortrainiert. Sie ist vergleichbar mit MLM, aber auf der Ebene des ganzen Satzes. BERT erhält ein Satzpaar und soll vorhersagen, ob der zweite Satz zum Kontext des ersten gehört oder nicht. In 50 Prozent der Fälle wird der zweite Satz durch einen zufälligen Satz ersetzt.
Durch die Kombination von MLM und NSP kann BERT eine bidirektionale Repräsentation der gesamten Sequenz erlernen, die in Benchmarks Spitzenergebnisse liefert.
GPT (generatively pre-trained Transformer) und seine Nachfolger, GPT-2 und GPT-3, sind neben BERT die beliebtesten Transformer-Architekturen. Forscher des OpenAI-Instituts stellten sie in einer Arbeit etwa zur gleichen Zeit wie BERT vor. Diese präsentierte Benchmark-Ergebnisse, die mit denen von BERT vergleichbar sind.
Im Gegensatz zu BERT verwendet GPT den Decoder-Teil des Transformers. Daher ist er durch kausale Sprachmodellierung (CLM) vortrainiert. GPT lernt vorherzusagen, was das nächste Wort für einen bestimmten Kontext ist. Diese Art der Sprachmodellierung bringt eine verminderte Leistung hervor, die aber z. B. bei Klassifizierungsaufgaben eingesetzt werden könnte. GPT zeichnet sich jedoch dadurch aus, dass es sehr natürlich klingende Texte generiert, die oft den Eindruck erwecken, als seien sie von einem Menschen geschrieben worden.
Aus ethischen und sicherheitstechnischen Gründen gab das Forschungsteam von OpenAI zunächst keine Ressourcen zur Reproduktion ihrer Arbeit frei. Die aktuellste Version ist GPT-3 mit insgesamt 175 Milliarden Parametern – lesen Sie dazu auch unseren Blogbeitrag.
Wir haben einen Überblick über die ersten Transformatoren gegeben, sie mit früheren Ansätzen wie RNNs verglichen und voneinander abgegrenzt. Im nächsten Teil unserer Serie werden wir die zweite Welle von Transformatoren, ihre neuen architektonischen Ergänzungen und ihre Vorteile vorstellen.
Cookie Freigabe
Diese Website verwendet notwendige Cookies zur Sicherstellung des Betriebs der Website. Eine Analyse des Nutzerverhaltens durch Dritte findet nicht statt. Detaillierte Informationen über den Einsatz von Cookies finden Sie in unseren Datenschutzerklärung.
Individuelle Cookie Einstellungen
Datenschutzeinstellungen
Hier finden Sie eine Übersicht über alle verwendeten Cookies. Sie können Ihre Zustimmung zu ganzen Kategorien geben oder sich weitere Informationen anzeigen lassen und so nur bestimmte Cookies auswählen.
Notwendige Cookies
Diese Cookies ermöglichen grundlegende Funktionen und sind für die einwandfreie Funktion der Website erforderlich.
Cookie Informationen anzeigen
Cookie Informationen verbergen
Hubspot CMS
HubSpot CMS ist ein Content-Management-System, das verschiedene Cookies zur Verfolgung von Besucherinteraktionen verwendet.
Anbieter: | HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA |
Cookiename: | __hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid |
Laufzeit: | 6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende |
Datenschutzlink: | https://legal.hubspot.com/de/privacy-policy |
Host: | .hubspot.com |
Matomo Analytics
Matomo ist eine Open-Source-Webanalyselösung, die Datenschutz und Datenhoheit betont und statistische Nutzer-Informationen festhält.
Anbieter: | InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand |
Cookiename: | _pk_id..; _pk_ses.. |
Laufzeit: | 13 Monate; 30 Minuten |
Datenschutzlink: | https://matomo.org/gdpr-analytics/ |
Host: | .matomo.cloud |
Cookies für Externe Inhalte
Inhalte von Videoplattformen und Social Media Plattformen werden standardmäßig blockiert. Wenn Cookies von externen Medien akzeptiert werden, bedarf der Zugriff auf diese Inhalte keiner manuellen Zustimmung mehr.
Cookie Informationen anzeigen
Cookie Informationen verbergen
YouTube
YouTube setzt verschiedene Cookies zur Verwaltung von Benutzereinstellungen und zur Verfolgung von Nutzerinteraktionen. Und wird verwendet, um YouTube-Inhalte freizuschalten.
Anbieter: | Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland |
Cookiename: | YSC; VISITOR_INFO1_LIVE; PREF |
Laufzeit: | Sitzungsende; 6 Monate; 8 Monate |
Datenschutzlink: | https://policies.google.com/privacy?hl=de |
Host: | .youtube.com |
Podigee
Podigee ist ein Podcast-Hosting-Dienst, der Cookies für die Freischaltung von Inhalten gesetzt.
Anbieter: | Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland |
Cookiename: | Nicht spezifiziert |
Laufzeit: | Nicht spezifiziert |
Datenschutzlink: | https://www.podigee.com/de/ueber-uns/datenschutz/ |
Host: | .podigee.com |
Google Maps
Dient zum Entsperren von Google Maps-Inhalten. Google Maps verwendet Cookies, um Benutzerpräferenzen zu speichern und die Nutzung zu erleichtern.
Anbieter: | Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland |
Cookiename: | SID; HSID; NID |
Laufzeit: | 2 Jahre; 2 Jahre; 6 Monate |
Datenschutzlink: | https://policies.google.com/privacy?hl=de |
Host: | .google.com |
Ihre Cookie-Einstellungen erlauben keine externen Inhalte von Google Maps.
Ihre Cookie-Einstellungen erlauben keine externen Inhalte von Matomo Analytics.