Reinforcement Learning (RL) beziehungsweise „Bestärkendes Lernen“ oder „Verstärkendes Lernen“ ist eine immer beliebter werdende Machine-Learning-Methode, die sich darauf konzentriert intelligente Lösungen auf komplexe Steuerungsprobleme zu finden. In diesem Blog-Artikel erklären wir, wie die Methode grundsätzlich funktioniert, um dann in zwei folgenden Artikeln zu zeigen, welches konkrete Potenzial in Reinforcement Learning steckt.
Reinforcement Learning kann zu ganz praktischen Zwecken eingesetzt werden. Google beispielsweise nutzt es zur Steuerung der Klimaanlage der Rechenzentren und konnte damit ein beeindruckendes Ergebnis erzielen: „Der lernfähige Algorithmus war dazu in der Lage, die zur Kühlung der Server notwendige Energie um rund 40 Prozent zu senken“. (Quelle: Deepmind.com) Aber wie funktioniert Reinforcement Learning?
Übersetzt bedeutet Reinforcement Learning in etwa bestärkendes Lernen oder verstärkendes Lernen. Ganz allgemein gesagt, gliedert sich Machine Learning in Unsupervised Machine Learning und Supervised Machine Learning. RL gilt neben den beiden genannten Methoden als eines der drei Methoden des maschinellen Lernens.
In Abgrenzung zu den beiden anderen Methoden werden beim Reinforcement Learning jedoch vorab keine Daten benötigt. Stattdessen werden diese in einer Simulationsumgebung in vielen Durchläufen in einem Trial-and-Error-Verfahren während des Trainings generiert und gelabelt.
Im Ergebnis ist durch Reinforcement Learning eine Form Künstlicher Intelligenz möglich, die ohne menschliches Vorwissen komplexe Steuerungsprobleme lösen kann. Im Vergleich zu konventionellem Engineering können solche Aufgaben um ein Vielfaches schneller, effizienter und im idealen Fall sogar optimal gelöst werden. Von führenden KI-Forschern wird RL als vielversprechende Methode zur Erreichung von Artificial General Intelligence bezeichnet.
Kurz gesagt handelt es sich dabei um die Fähigkeit einer Maschine jede beliebige intellektuelle Aufgabe erfolgreich erfüllen zu können. Wie ein Mensch muss auch eine Maschine verschiedene Kausalitäten beobachten und davon lernen, um in Zukunft unbekannte Probleme zu lösen.
Wenn Sie sich für die Unterscheidung von Künstlicher Intelligenz, Artificial General Intelligence und Machine Learning Methoden interessieren, lesen Sie unseren Grundlagen-Artikel zum Thema „KI“.
Ein Weg diesen Lernprozess nachzubilden ist die Methode „Trial-and-Error“. Anders gesagt wird bei Reinforcement Learning das Lernverhalten von „Trial-and-Error“ aus der Natur nachgebildet. Somit weist der Lernprozess Verbindungen zu Methoden in der Psychologie, Biologie und den Neurowissenschaften auf.
In unserem Deep Dive beleuchten wir die Wechselwirkungen zwischen Geschäftsmethoden, Neurowissenschaften und dem Reinforcement Learning in künstlicher und biologischer Intelligenz.
Reinforcement Learning – Algorithmen im Gehirn
Reinforcement Learning steht für eine ganze Reihe von Einzelmethoden, bei denen ein Software-Agent selbständig eine Strategie erlernt. Das Ziel bei dem Lernvorgang ist es, die Zahl an Belohnungen innerhalb einer Simulationsumgebung zu maximieren. Beim Training führt der Agent zu jedem Zeitschritt Aktionen innerhalb dieser Umgebung aus und erhält jeweils ein Feedback.
Dabei wird dem Software-Agenten vorab nicht gezeigt, welche Aktion in welcher Situation die beste ist. Vielmehr erhält er zu bestimmten Zeitpunkten eine Belohnung. Während des Trainings lernt der Agent auf diese Weise die Folgen von Aktionen auf Situationen in der Simulationsumgebung einzuschätzen. Auf dieser Basis kann er eine langfristige Strategie entwickeln, um die Belohnung zu maximieren.
Die Abbildung zeigt eine Iterationsschleife und illustriert das Zusammenspiel der einzelnen Komponenten beim Reinforcement Learning
Eine Policy ist einfach gesagt das gelernte Verhalten eines Software-Agents. Eine Policy gibt an, welche Action bei einer beliebigen Verhaltensvariante (Observation) aus der Lernumgebung (Enviroment) ausgeführt werden soll, um die Belohnung (Reward) zu maximieren.
Wie kann so eine Policy abgebildet werden? Dafür kann beispielsweise eine sogenannte Q-Table verwendet werden. Darin wird eine Tabelle mit allen möglichen Beobachtungen als Zeilen und allen möglichen Actions als Spalten aufgebaut. Die Zellen werden dann während des Trainings mit den sogenannten Value-Werten gefüllt, welche den erwarteten zukünftigen Reward darstellen.
Das verwenden der Q-Table hat aber auch seine Grenzen.: sie funktioniert nur, wenn der Action- und Observation-Space klein bleibt. Das heißt, wenn die Handlungsoptionen und die Verhaltensmöglichkeiten gering sind. Sollen viele Features oder auch Features mit kontinuierlichen Werten vom Software-Agent von der Environment ausgewertet werden, ist ein Neuronales Netz nötig um die Values abzubilden. Hierbei ist eine übliche Methode Deep Q-Learning.
In unserem Blog-Artikel zum Thema Deep Learning erklären wir nicht nur die Methode, sondern zeigen auch, wie sie praktisch Anwendung findet.
Im Detail wird das Neuronale Netz mit den Features des Observation-Spaces als Input-Schicht und mit den Actions als Ausgabe-Schicht oder Output-Layer definiert. Die Werte werden dann während des Trainings in den einzelnen Neuronen des Netzwerks gelernt und abgespeichert.
Eine vertiefende technische Einführung zur Reinforcement Learning, die Ihnen ein grundlegendes Verständnis von Reinforcement Learning (RL) anhand eines praktischen Beispiels gibt, erhalten Sie in unserem Blogbeitrag:
Reinforcement Learning – Framework und Anwendungsbeispiel
Wenn es um den praktischen Einsatz von verstärkendem Lernen geht, muss als Erstes die Fragestellung richtig verstanden werden. Reinforcement Learning ist nicht für jede Aufgabe gleichermaßen die passende Lösung. Es gibt wahrscheinlich sogar mehr Anwendungsfälle, in denen andere Methoden passender sind als verstärkendes Lernen. Welche Methode zu welchem Use Case passt, lässt sich beispielsweise in einem Use-Case-Workshop herausfinden.
Um herauszubekommen, ob sich Reinforcement Learning für eine bestimmte Fragestellung eignet, sollten Sie überprüfen, ob Ihr Problem einige der folgenden Merkmale aufweist:
Erfahren Sie, wie großen Sprachmodellen wie ChatGPT durch den Einsatz von Reinforcement Learning from Human Feedback (RLHF) verbessert werden.
Reinforcement Learning from Human Feedback im Bereich von großen Sprachmodellen
Bevor ein Algorithmus funktioniert, sind viele Iterationen erforderlich. Das liegt unter anderem daran, dass es verzögerte Belohnungen geben kann und diese erst gefunden werden müssen. Der Lernvorgang kann dabei als „Marcov Decision Process“ (MDP) modelliert werden. Dafür müssen ein Zustandsraum, ein Aktionsraum und eine Belohnungsfunktion entworfen werden.
Eine derart simulierte Lernumgebung muss eine wichtige Voraussetzung erfüllen: Sie muss die reale Welt vereinfacht widerspiegeln können. Dazu müssen drei Punkte beachtet werden:
Verstärkendes Lernen ist ein iterativer Prozess, bei dem die Systeme von selbst aus einer derart gestalteten Umgebung Regeln lernen können.
Reinforcement Learning lässt sich idealerweise dann einsetzen, wenn ein bestimmtes Ziel bekannt ist, dessen Lösung aber noch nicht. Beispielsweise: Ein Auto soll selbständig auf dem optimalen Weg von A nach B kommen, ohne einen Unfall zu verursachen. Im Vergleich zu traditionellen Engineering Methoden soll jedoch nicht der Mensch die Lösung vorgeben. Es wird mit möglichst wenigen Vorgaben eine eigene neue Lösung gefunden werden.
Einer der großen Vorzüge von Verstärkendem Lernen ist, dass im Gegensatz zu Supervised Machine Learning und Unsupervised Machine Learning keine speziellen Trainingsdaten benötigt werden. Im Gegensatz zu Supervised Machine Learning können neue und unbekannte Lösungen entstehen, anstatt nur aus den Daten nachgeahmte Lösungen. Das Erreichen einer neuen optimalen von Menschen unbekannten Lösung ist möglich.
Wer auf Verstärkendes Lernen setzen will, muss sich darüber bewusst sein, dass damit einige Herausforderungen einhergehen. Allen voran kann der Lernvorgang selbst sehr rechenintensiv sein. Langsame Simulationsumgebungen sind oft der Flaschenhals in Projekten mit Verstärkendem Lernen.
Daneben ist das Definieren der „Reward-Funktion“ – auch als Reward-Engineering bezeichnet – nicht trivial. Es ist nicht immer von Anfang an ersichtlich, wie die Rewards, also die Belohnungen, zu definieren sind. Darüber hinaus ist das Optimieren der vielen Parameter sehr komplex. Auch die Definition von Beobachtungs- und Aktions-Raum ist manchmal nicht einfach.
Nicht zuletzt spielt beim Verstärkendem Lernen auch das Dilemma von „Exploration vs. Exploitation“ eine Rolle. Das heißt, es stellt sich immer wieder die Frage, ob es lohnender ist, neue, unbekannte Wege zu gehen oder bestehende Lösungen zu verbessern.
Vertiefen Sie Ihr Verständnis für das Konzept der „Tödlichen Triade“ im Reinforcement Learning, seine Auswirkungen und Lösungsansätze. Dieser Deep Dive versorgt Sie mit einem Überblick über RL-Konzepte, Vorstellung der „Tödlichen Triade“ und deren Bewältigungsstrategien.
Reinforcement Learning – Deadly Triad
Um ein besseres Gefühl für die Anwendungsmöglichkeiten von Verstärkendem Lernen zu bekommen, haben wir im Folgenden noch einige Beispiele aus der Praxis zusammengestellt. Die folgende Übersicht zeigt zunächst das breite Aufgabenspektrum insgesamt. Verstärkendes Lernen kann dabei innerhalb der drei Kategorien „Optimierung“, „Steuerung“ und „Monitoring“ angewandt werden.
Die Grafik gibt einen Überblick über das Aufgabenspektrum von Verstärkendem Lernen.
Google ist dafür bekannt, an der vordersten Front der KI-Entwicklung zu stehen. Auch Reinforcement Learning spielt dabei eine wichtige Rolle. Diese Methode setzt Google bei der Gleichstromkühlung ein. Zum Hintergrund: Google betreibt riesige Rechenzentren, die nicht nur enorm viel Strom verbrauchen, sondern dabei extrem hohe Temperaturen erzeugen. Zur Kühlung wird dabei ein komplexes System von Klimaanlagen eingesetzt.
Damit war Google in der Lage, durch den Einsatz seines lernfähigen Algorithmus die Energiekosten für die Server-Kühlung um 40 Prozent zu senken.
Verstärkendes Lernen hilft dabei, dieses komplexe, dynamische System zu kontrollieren und zu steuern. Dabei gibt es nicht unbedeutende Sicherheitsbeschränkungen und Potenzial für eine erhebliche Verbesserung der Energieeffizienz.
Ebenfalls komplex und extrem störungsanfällig ist unser Straßennetz und das Verkehrsleitsystem. Allen voran ist dabei die intelligente Steuerung von Ampeln eine große Herausforderung. Verstärkendes Lernen eignet sich geradezu in idealer Weise, dieses Problem zu lösen. In dem Paper „Reinforcement learning-based multi-agent system for network traffic signal control“ versuchten Forscher, eine Ampelsteuerung zur Lösung des Stauproblems zu entwickeln.
Skizze für eine Simulationsumgebung mit Aktionsmöglichkeiten für den Agent. (Bildquelle: web.eecs.utk.edu/~itamar/Papers/IET_ITS_2010.pdf)
Die Logistik-Branche ist aufgrund ihrer Komplexität hervorragend für Reinforcement Learning geeignet. Das lässt sich zum einen am Beispiel der Bestandsverwaltung klarmachen. Verstärkendes Lernen kann etwa dazu verwendet werden, um die Durchlaufzeit für die Lagerbestände sowie die Bestellung von Produkten zur optimalen Nutzung des zur Verfügung stehenden Raumes des Lagerbetriebs zu reduzieren.
Auch im Bereich Flottenmanagement wird Reinforcement Learning verwendet. Hier gilt es seit vielen Jahren, eines der Hauptprobleme, das „Split Delivery Vehicle Routing Problem“ (SDVRP), zu lösen. Bei der traditionellen Tourenplanung steht eine Flotte mit einer bestimmten Kapazität und einer bestimmten Anzahl an Fahrzeugen zur Verfügung, um eine bestimmte Anzahl an Kunden mit einer bekannten Nachfrage zu bedienen. Dabei muss jeder Kunde von genau einem Fahrzeug angefahren werden. Das Ziel ist es, die Gesamtstrecke zu minimieren.
Beim Routing-Problem bei gesplitteten, also geteilten Lieferfahrzeugen (SDVRP) wird nun die Einschränkung, dass jeder Kunde genau einmal besucht werden muss, aufgehoben. Sprich: geteilte Lieferungen sind zulässig. Verstärkendes Lernen kann dieses Problem lösen, so dass so viele Kunden wie möglich mit nur einem Fahrzeug bedient werden.
Die dynamische Gestaltung von Preisen ist in bestimmten Bereichen wie im eCommerce ein andauernder und zeitkritischer Prozess. Verstärkendes Lernen ist ein Schlüssel, wenn es darum geht, eine geeignete Strategie für Preise in Abhängigkeit von Angebot und Nachfrage zu erstellen. Damit lässt sich der Produktumsatz sowie Gewinnmargen maximieren. Die Preisgestaltung kann auf den historischen Daten des Kaufverhaltens der Kunden trainiert werden und so beim Produktpreisfindungs-Prozess Vorschläge liefern.
Über den Einsatz von Reinforcement Learning in der Industrie und anderen relevanten Branchen lesen Sie in unserem Fachbeitrag:
Reinforcement Learning – Use Cases für Unternehmen
Reinforcement Learning ist aus einem bestimmten Grund besonders faszinierend. Die Methode weist sehr enge Beziehungen zu Psychologie, Biologie und den Neurowissenschaften auf. Ähnlich wie wir Menschen können Algorithmen mit dieser Lernmethode Fähigkeiten entwickeln, die den unseren ähneln. Das Grundprinzip lautet dabei immer „Trial-and-Error“. Mit diesem vergleichsweisen einfachen Prinzip können komplexe Kontroll- und Optimierungsprobleme gelöst werden, die mit traditionellen Methoden nur schwer zu realisieren sind.
Reinforcement Learning ist einer der aktuell interessantesten und sich am schnellsten entwickelnden Forschungsbereiche. Der Schritt in die Praxis nimmt immer mehr Fahrt auf und kann den entscheidenden Wettbewerbsvorteil ausmachen. Mit einer geeigneten Simulationsumgebung und einem Belohnungssystem kann verstärkendes Lernen zu beeindruckenden Ergebnissen führen. Vorausgesetzt, es gibt eine geeignete Fragestellung und eine KI-Strategie, in die sich Reinforcement Learning einbetten lässt.
Diesen Beitrag teilen: