Zurück

How-To: Midjourney

Unser Leitfaden für Einsteiger und Fortgeschrittene

Veröffentlicht: 07.03.2025
Autor: [at] Redaktion
Kategorie: Grundlagen

Inhaltsverzeichnis

How-to: Midjourney -Leitfaden für Einsteiger und Fortgeschrittene

„Midjourney ist ein unabhängiges Forschungslabor, das neue Medien des Denkens erforscht und die Vorstellungskraft der menschlichen Spezies erweitert.“

So beschreibt sich das Forschungslabor Midjourney selbst. Es sieht sich damit nicht nur als ein technisches Werkzeug, sondern vielmehr als Wegbereiter für eine erweiterte menschliche Vorstellungskraft. Mit über 20 Millionen Nutzern im November 2024 zeigt sich, dass der Ansatz von Midjourney auf breite Zustimmung stößt. Denn wenn das erste Bild mittels KI generiert wurde, kann das eine ziemlich magische Erfahrung sein. Doch wie bei jeder neuen Technologie braucht es Zeit und Übung, um das volle Potenzial zu nutzen.

Dieser Leitfaden geht den Fragen nach, wie Midjourney funktioniert, wie es sich im Vergleich mit anderen Bildgeneratoren schlägt und natürlich, wie gute Prompts aussehen, um faszinierende Bilder zu schaffen.

Was ist Midjourney?

Midjourney ist ein KI-basierter Bildgenerator, der durch die Eingabe von Textbefehlen (Prompts) automatisch digitale Bilder erzeugt. Die Software zählt damit zur Phalanx der generativen KI-Anwendungen. Entwickelt von dem gleichnamigen unabhängigen Forschungslabor, nutzt die Plattform Machine-Learning-Algorithmen, um detaillierte und „kreative“ visuelle Darstellungen zu generieren. Midjourney ermöglicht es somit, auf einfache Weise komplexe Bilder zu erzeugen, ohne tiefgehende grafische Kenntnisse des Benutzers vorauszusetzen.

MidJourney wurde erstmals im Juli 2022 als Open-Beta-Version der Öffentlichkeit zugänglich gemacht und erregte schnell großes Interesse. Über die Jahre wurden einige neue Versionen veröffentlicht, die schnellere und hochauflösende Bildgenerierungen, verbesserte Anpassungsoptionen und intuitive Benutzeroberflächen mit sich brachten. Die aktuell neueste Version 6.1 wurde im Juli 2024 veröffentlicht. Diese Version bietet verbesserte Bildqualität, schnellere Generationszeiten (etwa 25 % schneller als Version 6) und verfeinerte Details, insbesondere bei komplexen Texturen und feinen Merkmalen wie Augen und Gesichtszügen. Zudem beinhaltet 6.1 neue Upscaler-Optionen („Subtle“ und „Creative“), die es ermöglichen, Bilder in höherer Auflösung und mit verbesserter Detailtreue zu erstellen.

Exkurs: Funktionsweise

Die genaue Funktionsweise von Midjourney bleibt ein wohlgehütetes Geheimnis, doch basiert die Technologie, wie auch bei anderen Bildgeneratoren, auf zwei zentralen Ansätzen des maschinellen Lernens: Large Language Models (LLM) und Diffusionsmodellen (DM).

Das Sprachmodell (LLM) ermöglicht es der KI, die Bedeutung des Prompts – also einer textbasierten Beschreibung – zu erfassen und diese in einen Vektor umzuwandeln, der als digitale Version der Beschreibung dient. Dieser Vektor steuert dann den nächsten Schritt, die Diffusion. Dabei handelt es sich um einen Prozess, bei dem das Modell ursprünglich trainiert wurde, indem Rauschen zu seinem Trainingsdatensatz hinzugefügt und dann schrittweise entfernt wurde, um das Originalbild wiederherzustellen.

So kann Midjourney durch das Entfernen von Rauschen aus einem zufällig erzeugten Bild neue Bilder generieren, die der vom Nutzer eingegebenen Beschreibung entsprechen. Von der Eingabe der Aufforderung bis zum fertigen Bild vergeht dabei meist nur eine Minute – eine faszinierend schnelle Reise von der Idee zum visuellen Ergebnis.

Midjourney vs. DALL-E vs. Stable Diffusion

Midjourney muss sich mit starker Konkurrenz auf dem Markt der Bildgeneratoren messen. Alle haben dabei ihre Vor- und Nachteile und unterscheiden sich teilweise stark voneinander. Für einen besseren Überblick folgt ein Vergleich der 3 aktuell größten Anbieter.

Merkmal	Midjourney (V6.1)	DALL-E (3)	Stable Diffusion (3)
Qualität & Realismus	Hohe Bildqualität, realistische Darstellungen, gute Detailtiefe; Stärken in Fotorealismus und stimmungsvollem Licht	Sehr stilisierte und detaillierte Bilder; besonders stark bei Grafiken und Illustrationen	Realistische Szenen, hohe Qualität bei komplexen Kompositionen, allerdings teils weniger Detail
Prompt-Treue	Hohe Treue, besonders bei einfachen bis mittelkomplexen Prompts	Gute Genauigkeit, besonders bei einfachen bis komplexen Texten	Starke Treue, vor allem bei relationalen und komplexen Prompts
Anpassungsoptionen	Viele Optionen für Stil, Variation und Referenzbilder	Inpainting und interaktive Bearbeitung möglich	Unterstützt benutzerdefinierte Modelle und Anpassungen für spezifische Stile
Plattformzugang	Zugriff über Discord erforderlich	Zugriff über ChatGPT-Webplattform und über Bing	Open-Source und kann lokal installiert werden, flexibel über API zugänglich
Preismodell	Abonnement erforderlich; keine kostenlose Version	Integriert in der kostenpflichtigen Version von ChatGPT oder kostenlos über Bing	Kostenlos in der Basisversion; höhere Preise für angepasste Modelle
Einsatzbereich	Hohe Präzision bei kreativen, kommerziellen und künstlerischen Projekten	Besonders geeignet für stilisierte und detailreiche Bilder	Vielseitig einsetzbar; insbesondere für Nutzer, die benutzerdefinierte und vielseitige Bilder benötigen

Midjourney vs. DALL-E vs. Stable Diffusion: Das Fazit

Midjourney unterscheidet sich besonders durch seinen künstlerischen Fokus, wodurch nicht nur fotorealistische, sondern auch stilisierte und anspruchsvolle Bilder erzeugt werden können. Die Anpassungsmöglichkeiten und Bildtreue sind sehr gut, jedoch sind Zugang und Kosten für manche einschränkend. DALL-E punktet durch einfache Bedienbarkeit und ist für Einsteiger ideal, da es in ChatGPT integriert ist. Es lässt sich flexibel bearbeiten, jedoch mit weniger künstlerischer Freiheit und Textur als Midjourney. Stable Diffusion ist besonders attraktiv für fortgeschrittene Nutzer, die gerne lokale Modelle anpassen. Die Open-Source-Verfügbarkeit und Flexibilität machen es für spezifische Stil- und Modellanpassungen ideal, jedoch sind technische Kenntnisse für die optimale Nutzung erforderlich.

Wie kann ich Midjourney nutzen?

Um Midjourney zu nutzen, ist ein Discord-Konto erforderlich, da die gesamte Interaktion über die Discord-Plattform erfolgt. Dafür kann jedes Endgerät genutzt werden, das Discord unterstützt. Die Einrichtung ist schnell gemacht:

Schritt 1: Discord-Konto

Erstelle ein Konto bei Discord (falls noch keins vorhanden ist).

Schritt 2: Midjourney-Server

Nutze den Link https://discord.gg/midjourney und tritt dem offiziellen Midjourney-Discord-Server bei.

Schritt 3: Abonnement abschließen

Im Moment gibt es keine kostenfreie Testphase. Daher muss direkt ein Abonnement abgeschlossen werden. Es empfiehlt sich, erstmal den Basic Plan für 10 USD zu wählen, um Midjourney zu testen. Dafür kann der Aufruf /subscribe auf dem Midjourney-Discord-Server genutzt werden. Daraufhin wird ein persönlicher Link für eine Mitgliedschaft generiert.

Schritt 4: Newbie Room

Nach dem Abschluss einer Mitgliedschaft können in speziellen Kanäle für Neulinge (Newcomer Rooms) die Bildprompts eingeben werden und die KI generiert daraufhin die entsprechenden Bilder.

Preise und Kosten

Midjourney bietet verschiedene kostenpflichtige Abonnements, um die Dienste in vollem Umfang nutzen zu können. Es gibt keine kostenlose Version und auch die Testphase ist im Moment ausgesetzt, weil die Nutzerzahlen zu hoch sind. Es kann aus folgenden Abonnements gewählt werden:

Basic (10 USD/Monat): Bietet begrenzte GPU-Nutzungszeit, ideal für Anfänger oder gelegentliche Nutzer.
Standard (30 USD/Monat): Unbegrenzte „Relax GPU“-Zeit, etwas mehr GPU-Ressourcen, aber kein Stealth-Modus. Gut für häufige Nutzer.
Pro (60 USD/Monat): Unbegrenzte „Relax GPU“-Zeit, erweiterte GPU-Ressourcen, Stealth-Modus für private Projekte und mehrere parallele Jobs. Geeignet für Power-User.
Mega (120 USD/Monat): Maximale GPU-Ressourcen und Leistung mit allen Features. Ideal für Professionals.

Ausführlichere Informationen zu den Mitgliedschaftsoptionen sind unter Midjourney subscription nachlesbar.

Prompting in Midjourney für Einsteiger

Midjourney nutzt Prompts, um aus Textbeschreibungen visuelle Darstellungen zu erstellen. Das Erstellen eines guten Prompts ist der Schlüssel zu hochwertigen Bildern, denn dieser bestimmt den Inhalt, den Stil und die Komposition.

1. Syntax und Eingabe von Prompts:

In Midjourney erfolgt die Eingabe von Prompts über das Discord-Interface in Englisch. Begonnen wird mit dem Befehl /imagine gefolgt von der Beschreibung.

Beispiel:/imagine a futuristic cityscape at sunset, vibrant colors, ultra-realistic

Die KI interpretiert diese Eingaben und erstellt auf Basis der Beschreibung ein Bild. Ein guter Prompt hängt davon ab, wie klar und detailliert die Beschreibung ist. Zum Beispiel:

Themen und Objekte: Beschreibe, was im Bild sein soll (z. B. "ein Wald", "ein futuristisches Gebäude").
Adjektive und Details: Füge Details hinzu, um das Bild zu verfeinern (z. B. "nebliger Wald", "hohes futuristisches Gebäude mit Glasfassade").
Stilrichtungen und Techniken: Weise die KI an, in welchem Stil das Bild erstellt werden soll (z. B. "im Stil eines impressionistischen Gemäldes" oder "Fotorealismus").

Soll zum Beispiel eine Bleistiftskizze einer jungen Katze auf einem Kissen generiert werden, lautet der Prompt:

/imagine a pencil sketch style young caton a cushion

Hier einige Beispiele für verschiedene Stile:

Auch verschiedene Zeitepochen mit ihren typischen Stilmerkmalen sind möglich:

2. Optionen zur Verfeinerung der Prompts:

Midjourney bietet eine Reihe von Parametern, mit denen der Output weiter gesteuert werden kann, zum Beispiel:

--ar: Das Seitenverhältnis (Aspect Ratio) anpassen, z. B. --ar 16:9 für ein breites Bild.
--q: Die Qualitätsstufe ändern, z. B. --q 2 für eine höhere Detailgenauigkeit (standardmäßig --q 1).

Beispielprompt:

/imagine a futuristic cityscape at sunset, vibrant colors, flying cars, skyscrapers made of glass, ultra-realistic --ar 16:9 --q 2

Gibt man diesen Prompt ein, kommt folgender Output:

Nach der Generierung werden vier Bildvarianten angezeigt, welche nun weiter bearbeitet werden können:

U1, U2, U3, U4 wählen, um eine der Varianten hochzuskalieren (größere und detailliertere Version).
V1, V2, V3, V4 wählen, um Varianten auf Basis des jeweiligen Bildes zu erstellen.
Remix (falls aktiviert): Ermöglicht es, das Bild mit leicht veränderten Prompts neu zu bearbeiten.

Wenn beispielsweise die Farbgebung des vierten Bildes besonders ansprechend ist, das Bild jedoch noch nicht vollständig den eigenen Vorstellungen entspricht, lässt sich durch einen Klick auf „V4“ eine Serie von vier Varianten generieren:

In diesem Beispiel entscheiden wir uns wieder für das vierte Bild und erstellen durch einen Klick auf “U4” ein hochskaliertes Bild:

Es besteht die Möglichkeit, das entstandene Bild weiter zu bearbeiten:

Upscale (Subtle) und Upscale (Creative): Diese Optionen erhöhen die Bildauflösung. „Subtle“ verbessert das Bild ohne starke Änderungen, während „Creative“ mehr künstlerische Freiheiten einsetzt und das Bild lebendiger gestaltet.
Vary (Subtle) und Vary (Strong): Hiermit lassen sich Variationen des Bildes erzeugen. „Subtle“ führt zu leichten Anpassungen, während „Strong“ markante Unterschiede erzeugt.
Vary (Region): Diese Funktion ermöglicht es, einen bestimmten Bereich des Bildes zu wählen und nur diesen zu verändern, während der Rest unverändert bleibt.
Zoom Out 2x, Zoom Out 1.5x und Custom Zoom: Diese Optionen vergrößern die Ansicht und fügen zusätzliche Elemente rund um das Hauptmotiv hinzu. „Custom Zoom“ erlaubt eine individuelle Zoom-Stufe.
Make Square: Passt das Seitenverhältnis an ein quadratisches Format an.
Pfeile: Mit den Pfeilen lässt sich das Bildmotiv leicht in die jeweilige Richtung verschieben.

Sobald das gewünschte Ergebnis erreicht ist, muss das Bild lediglich heruntergeladen werden – damit ist das Bild einer futuristischen Stadt mit fliegenden Autos fertig.

Der Befehl /describe

Manchmal existiert eine klare Vorstellung vom gewünschten Bild, doch die passende Eingabeaufforderung zu finden, erweist sich als schwierig. Trotz zahlreicher Anpassungen bleibt das Resultat oft hinter den Erwartungen zurück. In solchen Fällen kann der Befehl /describe hilfreich sein, um bereits vorhandene Bilder zu analysieren, die dem gewünschten Bild ähneln. So lässt sich nachvollziehen, wie Midjourney diese interpretiert.

Nach Eingabe des Befehls erscheint eine Drag-&-Drop-Box zum Hochladen des Bildes:

Nachdem das passende Bild hochgeladen wurde, wird Midjourney vier Optionen anzeigen, die das Bild beschreiben. Danach muss nur noch die am besten passende Option ausgewählt und weiter optimiert werden, um den passenden Prompt für das eigene Projekt zu finden. Damit kann der Befehl /describe eine gute Hilfestellung sein, wenn Midjourney nicht die gewünschten Ergebnisse liefert.

Midjourney Prompt Guide

Nachdem die grundlegenden Prinzipien der Bildgenerierung mit Midjourney erläutert wurden, folgt ein kompaktes Cheat-Sheet mit wichtigen Befehlen und Parametern. Dieses dient dazu, die Prompt-Erstellung weiter zu optimieren und die Bildausgaben präziser und kontrollierbarer zu gestalten.

Anweisung	Schreibweise	Beispiel im Prompt	Funktion und Anwendung
Bildgenerierung	/imagine	/imagine a sunset over mountains	Grundbefehl, um die Bildgenerierung zu starten. Immer gefolgt von einer Textbeschreibung des gewünschten Bildes.
Bildbeschreibung	/describe	/describe [Bild hochladen]	Beschreibt ein hochgeladenes Bild in vier Textvarianten.
Bilder aus URL laden	Bild-URL einfügen	/imagine [Bild-URL] a sunset over mountains	Ermöglicht es, Bild-URLs als Ausgangspunkt für die Bildgenerierung zu verwenden und sie mit textuellen Anweisungen zu kombinieren.
Seitenverhältnis	--ar (Aspect Ratio)	/imagine a sunset over mountains --ar 16:9	Definiert das Seitenverhältnis des Bildes. Standardmäßig 1:1. Möglich ist z. B. --ar 16:9 für breitere Bilder oder --ar 9:16 für Hochformate.
Benutzerdefinierte Größen	--w, --h	/imagine a sunset over mountains --w 1920 --h 1080	Legt eine benutzerdefinierte Bildbreite (--w) und Höhe (--h) in Pixeln fest, um eine spezifische Auflösung zu erhalten.
Bildqualität	--q (Quality)	/imagine a sunset over mountains --q 2	Erhöht die Bildqualität. Standard ist --q 1. Höhere Werte (bis zu --q 2) erhöhen die Detailtreue, verlängern jedoch die Bearbeitungszeit.
Version auswählen	--v (Version)	/imagine a sunset over mountains --v 5	Wählt eine spezifische Version der Midjourney-Engine. Zum Beispiel --v 5 oder --v 6 für die neuesten Versionen.
Stilvorlage	--style	/imagine a sunset over mountains --style 1000	Bestimmt den künstlerischen Stil der Bilder. Werte von 0 (realistisch) bis 1000 (extrem stilisiert).
Chaosfaktor	--chaos	/imagine a sunset over mountains --chaos 80	Erhöht die Zufälligkeit des Bildes. Werte von 0 bis 100; höhere Werte führen zu unvorhersehbaren und kreativen Ergebnissen.
Scharfzeichnen	--hd	/imagine a sunset over mountains --hd	Aktiviert den "HD"-Modus für schärfere und detaillierte Bilder.
Anzahl der Variationen	--n (Number of Variations)	/imagine a sunset over mountains --n 3	Generiert eine festgelegte Anzahl von Variationen (zwischen 1 und 4). Standardmäßig werden vier Bilder generiert.
bestimmte Objekte im Bild auschließen	--no [Objekt/Feature]	/imagine a sunset over mountains --no trees	Schließt bestimmte Elemente aus dem Bild aus, in diesem Fall werden keine Bäume im Bild generiert.
Details priorisieren	--details	/imagine a sunset over mountains --details	Erhöht den Detailgrad im Bild. Funktioniert gut bei Bildern mit vielen Elementen, die detaillierter sein sollen.
Farbbalance	--color	/imagine a sunset over mountains --color warm	Bestimmt den Farbton des Bildes, z. B. warm, cold oder vibrant.
Schatteneffekte	--shadow	/imagine a sunset over mountains --shadow	Fügt tiefere Schatten und realistische Beleuchtung hinzu, besonders in dunkleren Szenen.

Midjourney-Galerie

Abschließend einige Prompt-Beispiele mit den dazugehörigen Bildern, um einen Eindruck zu vermitteln, wozu Midjourney in der Lage ist.

#1: Elephant made of glass

/imagine Elephant made of glass, Kintsugi, orange sunset, national geographic, scenic landscape --ar 16:9

#2: Black Parrot

/imagine minimalistic photographie of black parrot, eating oranges, white background --ar 4:3

#3: Wide Wooded Valley

/imagine a large-format picture with a figure leaning on an orange (HEX #FF792B) tower PC in the foreground, in the background a wide wooded valley, with gently sloping cliffs and a bright, cloudy sky, low horizon, in the style of Pumpkin and Fruits by Yayoi Kusama, --ar 1600:1000

#4: Cowboy sitting at a Table

/imagine a cowboy sitting at a table in a tavern, playing poker, cowboy hat pulled low on his face, some cards in his hands, a superior laugh on his lips, frontal view, half-length figure, cards in orange (HEX #FF792B), --ar 16:9

#5: Personification of Language

/imagine a personification of language melting under an orange (HEX #FF792B) sun, surrealism in the style of Salvador Dalí, --ar 8:5

Diesen Beitrag teilen:

Autor

[at] Redaktion

Mit umfassendem Fachwissen in Technologie und Wissenschaft bereitet unser AutorInnen-Team komplexe Themen klar und verständlich auf. In ihrer Freizeit widmen sie sich kreativen Projekten, erkunden neue Wissensgebiete und lassen sich von Forschung und Kultur inspirieren.

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com