Mit diesem Beitrag wollen wir die Brücke schlagen zwischen dem grundlegenden Verständnis von Reinforcement Learning (RL) und dem Lösen eines Problems mit RL-Methoden. Der Artikel ist in drei Abschnitte unterteilt. Der erste Abschnitt ist eine kurze Einführung in RL. Der zweite Abschnitt erklärt die wichtigsten Begriffe, die zur Formulierung eines RL-Problems erforderlich sind, anhand eines Beispiels. Im dritten und letzten Abschnitt stellen wir schließlich eine grundlegende Implementierung zur Lösung eines Problems mit RL vor.
Reinforcement Learning (RL) ist eine Art des Maschinellen Lernens. Es geht dabei darum, Agenten zu trainieren, Entscheidungen in einer Umgebung zu treffen, indem sie aus den Folgen ihrer Handlungen lernen. Der Agent erhält Rückmeldungen in Form von „Belohnungen“ oder „Bestrafungen“, die er nutzt, um seine Entscheidungsstrategie zu aktualisieren und seine Leistung mit der Zeit zu verbessern. Der Agent lernt durch Trial-and-Error, d. h. er probiert verschiedene Aktionen aus und erhält Rückmeldungen in Form von Belohnungen oder Bestrafungen. RL kann für jeden Prozess oder jedes System verwendet werden, das einen sequenziellen Entscheidungsfindungsprozess beinhaltet, der optimiert werden könnte.
RL findet Anwendung in Bereichen wie autonomes Fahren, Robotik, Kontrollsysteme, Spiele-KI sowie Wirtschaft und Finanzen, z. B. bei der Optimierung der Entscheidungsfindung in der Portfolio-Optimierung und der Ressourcenzuweisung. Außerdem wurde es zur Verbesserung der Leistung von Dialogsystemen (Chatbots) wie ChatGPT eingesetzt, die in den letzten Monaten für viel Wirbel gesorgt haben.
Dieser Abschnitt gibt einen Überblick über die Definitionen und Beschreibungen der wichtigsten Begriffe, die zum Verständnis der Dynamik von RL-Algorithmen erforderlich sind. Es ist immer einfacher, komplexe Begriffe anhand eines einfachen visuellen Reinforcement-Learning-Beispiels zu verstehen, daher wollen die verschiedenen Begriffe im Folgenden mithilfe eines einfachen Problems des Reinforcement Learning erklären.
Das Hauptziel unseres Roboters QT ist es, das Spiel zu gewinnen, indem er das Zielfeld (auch als Zielzustand bekannt), das durch Münzen gekennzeichnet ist, erreicht, indem er den optimalen Weg findet und verfolgt. Um sich im Labyrinth zu bewegen, kann QT vier Aktionen ausführen: nach oben, nach unten, nach links und nach rechts gehen. In dieser Umgebung gibt es einige Hindernisse wie das Blitz-Feld und den unpassierbaren Block (grauer Kasten). Diese Hindernisse können QT entweder töten oder ihn daran hindern, seine beabsichtigte Aktion (Bewegung) auszuführen. Da QT keine Vorkenntnisse über das Labyrinth hat, besteht die Idee darin, dass QT versucht, die Umgebung durch zufälliges Navigieren zu erkunden und einen möglichen Weg zum Ziel zu finden.
Um besser zu verstehen, wie QT dies erreichen kann, ist es wichtig, einige grundlegende RL-Komponenten und Begriffe zu verstehen, die auch verwendet werden, um das Problem mathematisch zu formulieren.
Das Labyrinth wird als Umgebung (Environment) und der Roboter QT als Agent bezeichnet. Beim Reinforcement Learning ist die Umgebung das System, die Simulation oder der Raum, in dem der Agent agieren kann. Das Wichtigste ist, dass der Agent die Regeln oder die Dynamik der Umgebung in keiner Weise verändern kann. Die Umgebung ist die Welt des Agenten, in der er interagiert, indem er bestimmte Aktionen ausführt und Rückmeldungen erhält. Der Agent interagiert mit der Umwelt und trifft Entscheidungen. Dabei kann es sich um einen Roboter, ein Softwareprogramm oder ein anderes System handeln, das Aktionen ausführen und anschließend eine Belohnung erhalten kann. Im obigen Beispiel interagiert QT (der RL-Agent) mit dem Labyrinth (Umgebung), indem er sich in eine der Richtungen bewegt und seine Position im Labyrinth aktualisiert. Nachfolgend die verschiedenen Komponenten und Merkmale der Agenten-Umwelt-Interaktion:
Eine kompakte Einleitung in die Definition und Begrifflichkeiten hinter Reinforcement Learning erhalten Sie in unserem Grundlagenartikel zur Methodik:
Reinforcement Learning: kompakt erklärt
Nachdem wir die grundlegende Terminologie im Zusammenhang mit dem „Labyrinth-Problem“ kennengelernt haben, wollen wir diese Terminologie aus einer mathematischen Perspektive formulieren und verstehen.
Die obige Schleife stellt einen Schritt des Agenten dar. Der Agent muss mehrere solcher Schritte {S0, A0, R1, S1, T0} unternehmen, um seine Umgebung zu erkunden und die guten und schlechten Zustände zusammen mit den jeweiligen Aktionen, die zu ihnen führen, zu identifizieren. Und schließlich muss er auf dem optimalen Weg zum Ziel navigieren. Um nun ein Entscheidungs- oder Optimierungsproblem mit Hilfe von Reinforcement Learning zu formulieren und zu lösen, müssen einige sehr wichtige Konzepte und Begriffe erklärt werden.
In unserem Deep Dive beleuchten wir die Wechselwirkungen zwischen Geschäftsmethoden, Neurowissenschaften und dem Reinforcement Learning in künstlicher und biologischer Intelligenz.
Reinforcement Learning – Algorithmen im Gehirn
DISCLAIMER: Jetzt beginnt ein mathematischer Deep Dive!
1. Markov Decision Process = MDP: Ein Markov-Entscheidungsprozess ist ein Prozess, bei dem die zukünftigen Zustände nur vom gegenwärtigen Zustand abhängen und in keiner Weise mit den vergangenen Zuständen verbunden sind, die zum gegenwärtigen Zustand geführt haben. Dieser mathematische Rahmen wird zur Modellierung von Entscheidungsproblemen beim Reinforcement Learning verwendet. Bei einer Abfolge von Zuständen, Aktionen und den Belohnungen s0, a0, r0, s1, a1, r1, s2, a2, r2….st, at, rt (die so genannte Historie), die von einem Agenten beobachtet wird, wird gesagt, dass das Zustandssignal die Markov-Eigenschaft hat, wenn es die folgende Gleichung erfüllt:
P (St+1 = s′, Rt+1 = r′| st, at) = P (St+1 = s′, Rt+1 = r′| st, at, rt, … s0, a0, r0), wo:
2. Cumulative Return and Discount Factor (Kumulierte Rendite und Abzinsungsfaktor)
a) RL-Agenten lernen, indem sie eine Aktion auswählen, die die kumulative zukünftige Belohnung maximiert. Die kumulative zukünftige Belohnung wird Rendite (return) genannt und oft mit R bezeichnet. Die Rendite zum Zeitpunkt t wird wie folgt bezeichnet:
b) Diese Gleichung ist nur sinnvoll, wenn die Lernaufgabe nach einer kleinen Anzahl von Schritten endet. Wenn die Lernaufgabe viele sequenzielle Entscheidungen erfordert (z. B. das Ausbalancieren einer Stange), ist die Anzahl der Schritte hoch (oder sogar unendlich), so dass der Wert der Rendite unbegrenzt sein kann. Daher ist es gebräuchlicher, die zukünftige kumulative diskontierte Belohnung G (cumulative discounted reward G) zu verwenden, die wie folgt ausgedrückt wird:
Wobei γ als Diskontierungsfaktor bezeichnet wird und im Bereich von [0, 1] variiert. Gamma (γ) steuert die Bedeutung der zukünftigen Belohnungen gegenüber den unmittelbaren Belohnungen. Je niedriger der Abzinsungsfaktor (näher an 0) ist, desto weniger wichtig sind die zukünftigen Belohnungen, und der Agent wird dazu neigen, sich nur auf die Handlungen zu konzentrieren, die maximale unmittelbare Belohnungen bringen. Wenn der Wert von γ höher ist (näher an 1), bedeutet dies, dass jede zukünftige Belohnung gleich wichtig ist. Wenn der Wert von γ auf 1 gesetzt wird, dann ist der Ausdruck für die kumulative Diskontbelohnung G derselbe wie der für die Rendite R.
3. Policy: Eine Policy (bezeichnet als π(s)) ist ein Satz von Regeln oder ein Algorithmus, den der Agent verwendet, um seine Aktionen zu bestimmen. Diese Policy legt fest, wie sich der Agent in jedem Zustand verhält und welche Aktion er in einem bestimmten Zustand wählen soll. Für einen Agenten ist eine Policy eine Abbildung von Zuständen auf ihre jeweiligen optimalen Aktionen. Zu Beginn, wenn der Agent mit dem Lernen beginnt, besteht eine Policy aus einer Zuordnung von Zuständen zu zufälligen Aktionen. Während des Trainings erhält der Agent jedoch verschiedene Belohnungen aus der Umgebung, die ihm helfen, die Policy zu optimieren. Die optimale Policy ist diejenige, die es dem Agenten ermöglicht, den Ertrag in jedem Zustand zu maximieren. Die optimale Policy wird mit π* bezeichnet und ist eine Abbildung von Zuständen auf die jeweiligen optimalen Aktionen in diesen Zuständen.
4. Action Value and State Value Functions (Aktionswert- und Zustandswertfunktionen): Um die Policy zu optimieren, muss der Agent zwei Dinge herausfinden. Erstens, welches die guten und schlechten Zustände sind, und zweitens, welche Aktionen für jeden Zustand die guten und schlechten sind. Zu diesem Zweck können zwei verschiedene Wertfunktionen verwendet werden, nämlich die Zustandswertfunktion V(s) und die Aktionswertfunktion Q(s,a).
a) State value function – Die Zustandswertfunktion definiertdefiniert die „Güte“ des Agenten, der sich in einem Zustand befindet.. Mathematisch gesehen schätzt die Zustandswertfunktion den erwarteten zukünftigen Nutzen eines bestimmten Zustands. Diese Werte geben den erwarteten Ertrag an, wenn man von einem Zustand ausgeht und seine Policy π verfolgt.
Sie wird als V(s) oder Vπ(s) bezeichnet, wobei s der aktuelle Zustand ist. Er ist mathematisch definiert als:
b) Action value function Die Handlungswertfunktion bewertet „die Qualität einer Handlung in einem Zustand“, d.h. wie gut eine bestimmte Handlung in einem bestimmten Zustand ist. Mathematisch gesehen schätzt sie den erwarteten zukünftigen Nutzen einer bestimmten Handlung in einem bestimmten Zustand und der anschließenden (erneuten) Befolgung der Strategie. Sie ist ähnlich wie die Zustandswertfunktion, nur dass sie spezifischer ist, da sie die Qualität jeder Handlung in einem Zustand und nicht nur den Zustand selbst bewertet.
Sie wird als Q(s,a) oder Qπ(s,a) bezeichnet, wobei s der aktuelle Zustand und a die durchgeführte Aktion ist:
5. Bellman Equation (Bellman-Gleichung): Die Bellman-Gleichung ist grundlegend für die Schätzung der beiden Wertfunktionen. Sie definiert die Beziehung zwischen dem aktuellen Zustands-Aktionspaar (s, a), der beobachteten Belohnung und den möglichen Nachfolge-Zustands-Aktionspaaren. Diese Beziehung wird verwendet, um die optimale Wertfunktion zu finden. Die Bellman-Gleichung definiert den Wert eines Zustands-Aktionspaares Q(s,a) als die erwartete Belohnung für die beste Aktion in diesem Zustand s plus den diskontierten Wert des besten nächsten Zustands-Aktionspaares (gemäß der aktuellen Policy).
Die Bellman-Funktion kann sowohl für die Zustands-Wert-Funktion V(s) als auch für die Handlungs-Wert-Funktion Q(s, a) wie folgt definiert werden:
V(s) = max(a) [R(s,a) + γ * V(s‘)]
Q(s,a) = R(s,a) + γ * max(a‘) [Q(s‘,a‘)], wo
Vertiefen Sie Ihr Verständnis für das Konzept der „Tödlichen Triade“ im Reinforcement Learning, seine Auswirkungen und Lösungsansätze. Dieser Deep Dive versorgt Sie mit einem Überblick über RL-Konzepte, Vorstellung der „Tödlichen Triade“ und deren Bewältigungsstrategien.
Reinforcement Learning – Deadly Triad
Das Verfahren zur schrittweisen Schätzung der Aktionswerte aus den beobachteten Zustands-Aktions-Belohnungs-Zustands-Tupeln wird als Q-Learning bezeichnet. Die Q-Werte werden anhand der Bellman-Gleichung aktualisiert:
Über den Einsatz von Reinforcement Learning in der Industrie und anderen relevanten Branchen lesen Sie in unserem Fachbeitrag:
Diesen Beitrag teilen: