Unser Leitfaden für Einsteiger und Fortgeschrittene
„Midjourney ist ein unabhängiges Forschungslabor, das neue Medien des Denkens erforscht und die Vorstellungskraft der menschlichen Spezies erweitert.“
So beschreibt sich das Forschungslabor Midjourney selbst. Es sieht sich damit nicht nur als ein technisches Werkzeug, sondern vielmehr als Wegbereiter für eine erweiterte menschliche Vorstellungskraft. Mit über 20 Millionen Nutzern im November 2024 zeigt sich, dass der Ansatz von Midjourney auf breite Zustimmung stößt. Denn wenn das erste Bild mittels KI generiert wurde, kann das eine ziemlich magische Erfahrung sein. Doch wie bei jeder neuen Technologie braucht es Zeit und Übung, um das volle Potenzial zu nutzen.
Dieser Leitfaden geht den Fragen nach, wie Midjourney funktioniert, wie es sich im Vergleich mit anderen Bildgeneratoren schlägt und natürlich, wie gute Prompts aussehen, um faszinierende Bilder zu schaffen.
Midjourney ist ein KI-basierter Bildgenerator, der durch die Eingabe von Textbefehlen (Prompts) automatisch digitale Bilder erzeugt. Die Software zählt damit zur Phalanx der generativen KI-Anwendungen. Entwickelt von dem gleichnamigen unabhängigen Forschungslabor, nutzt die Plattform Machine-Learning-Algorithmen, um detaillierte und „kreative“ visuelle Darstellungen zu generieren. Midjourney ermöglicht es somit, auf einfache Weise komplexe Bilder zu erzeugen, ohne tiefgehende grafische Kenntnisse des Benutzers vorauszusetzen.
MidJourney wurde erstmals im Juli 2022 als Open-Beta-Version der Öffentlichkeit zugänglich gemacht und erregte schnell großes Interesse. Über die Jahre wurden einige neue Versionen veröffentlicht, die schnellere und hochauflösende Bildgenerierungen, verbesserte Anpassungsoptionen und intuitive Benutzeroberflächen mit sich brachten. Die aktuell neueste Version 6.1 wurde im Juli 2024 veröffentlicht. Diese Version bietet verbesserte Bildqualität, schnellere Generationszeiten (etwa 25 % schneller als Version 6) und verfeinerte Details, insbesondere bei komplexen Texturen und feinen Merkmalen wie Augen und Gesichtszügen. Zudem beinhaltet 6.1 neue Upscaler-Optionen („Subtle“ und „Creative“), die es ermöglichen, Bilder in höherer Auflösung und mit verbesserter Detailtreue zu erstellen.
Die genaue Funktionsweise von Midjourney bleibt ein wohlgehütetes Geheimnis, doch basiert die Technologie, wie auch bei anderen Bildgeneratoren, auf zwei zentralen Ansätzen des maschinellen Lernens: Large Language Models (LLM) und Diffusionsmodellen (DM).
Das Sprachmodell (LLM) ermöglicht es der KI, die Bedeutung des Prompts – also einer textbasierten Beschreibung – zu erfassen und diese in einen Vektor umzuwandeln, der als digitale Version der Beschreibung dient. Dieser Vektor steuert dann den nächsten Schritt, die Diffusion. Dabei handelt es sich um einen Prozess, bei dem das Modell ursprünglich trainiert wurde, indem Rauschen zu seinem Trainingsdatensatz hinzugefügt und dann schrittweise entfernt wurde, um das Originalbild wiederherzustellen.
So kann Midjourney durch das Entfernen von Rauschen aus einem zufällig erzeugten Bild neue Bilder generieren, die der vom Nutzer eingegebenen Beschreibung entsprechen. Von der Eingabe der Aufforderung bis zum fertigen Bild vergeht dabei meist nur eine Minute – eine faszinierend schnelle Reise von der Idee zum visuellen Ergebnis.
Midjourney muss sich mit starker Konkurrenz auf dem Markt der Bildgeneratoren messen. Alle haben dabei ihre Vor- und Nachteile und unterscheiden sich teilweise stark voneinander. Für einen besseren Überblick folgt ein Vergleich der 3 aktuell größten Anbieter.
Merkmal | Midjourney (V6.1) | DALL-E (3) | Stable Diffusion (3) |
---|---|---|---|
Qualität & Realismus | Hohe Bildqualität, realistische Darstellungen, gute Detailtiefe; Stärken in Fotorealismus und stimmungsvollem Licht | Sehr stilisierte und detaillierte Bilder; besonders stark bei Grafiken und Illustrationen | Realistische Szenen, hohe Qualität bei komplexen Kompositionen, allerdings teils weniger Detail |
Prompt-Treue | Hohe Treue, besonders bei einfachen bis mittelkomplexen Prompts | Gute Genauigkeit, besonders bei einfachen bis komplexen Texten | Starke Treue, vor allem bei relationalen und komplexen Prompts |
Anpassungsoptionen | Viele Optionen für Stil, Variation und Referenzbilder | Inpainting und interaktive Bearbeitung möglich | Unterstützt benutzerdefinierte Modelle und Anpassungen für spezifische Stile |
Plattformzugang | Zugriff über Discord erforderlich | Zugriff über ChatGPT-Webplattform und über Bing | Open-Source und kann lokal installiert werden, flexibel über API zugänglich |
Preismodell | Abonnement erforderlich; keine kostenlose Version | Integriert in der kostenpflichtigen Version von ChatGPT oder kostenlos über Bing | Kostenlos in der Basisversion; höhere Preise für angepasste Modelle |
Einsatzbereich | Hohe Präzision bei kreativen, kommerziellen und künstlerischen Projekten | Besonders geeignet für stilisierte und detailreiche Bilder | Vielseitig einsetzbar; insbesondere für Nutzer, die benutzerdefinierte und vielseitige Bilder benötigen |
Midjourney unterscheidet sich besonders durch seinen künstlerischen Fokus, wodurch nicht nur fotorealistische, sondern auch stilisierte und anspruchsvolle Bilder erzeugt werden können. Die Anpassungsmöglichkeiten und Bildtreue sind sehr gut, jedoch sind Zugang und Kosten für manche einschränkend. DALL-E punktet durch einfache Bedienbarkeit und ist für Einsteiger ideal, da es in ChatGPT integriert ist. Es lässt sich flexibel bearbeiten, jedoch mit weniger künstlerischer Freiheit und Textur als Midjourney. Stable Diffusion ist besonders attraktiv für fortgeschrittene Nutzer, die gerne lokale Modelle anpassen. Die Open-Source-Verfügbarkeit und Flexibilität machen es für spezifische Stil- und Modellanpassungen ideal, jedoch sind technische Kenntnisse für die optimale Nutzung erforderlich.
Um Midjourney zu nutzen, ist ein Discord-Konto erforderlich, da die gesamte Interaktion über die Discord-Plattform erfolgt. Dafür kann jedes Endgerät genutzt werden, das Discord unterstützt. Die Einrichtung ist schnell gemacht:
Erstelle ein Konto bei Discord (falls noch keins vorhanden ist).
Nutze den Link https://discord.gg/midjourney und tritt dem offiziellen Midjourney-Discord-Server bei.
Im Moment gibt es keine kostenfreie Testphase. Daher muss direkt ein Abonnement abgeschlossen werden. Es empfiehlt sich, erstmal den Basic Plan für 10 USD zu wählen, um Midjourney zu testen. Dafür kann der Aufruf /subscribe auf dem Midjourney-Discord-Server genutzt werden. Daraufhin wird ein persönlicher Link für eine Mitgliedschaft generiert.
Nach dem Abschluss einer Mitgliedschaft können in speziellen Kanäle für Neulinge (Newcomer Rooms) die Bildprompts eingeben werden und die KI generiert daraufhin die entsprechenden Bilder.
Midjourney bietet verschiedene kostenpflichtige Abonnements, um die Dienste in vollem Umfang nutzen zu können. Es gibt keine kostenlose Version und auch die Testphase ist im Moment ausgesetzt, weil die Nutzerzahlen zu hoch sind. Es kann aus folgenden Abonnements gewählt werden:
Ausführlichere Informationen zu den Mitgliedschaftsoptionen sind unter Midjourney subscription nachlesbar.
Midjourney nutzt Prompts, um aus Textbeschreibungen visuelle Darstellungen zu erstellen. Das Erstellen eines guten Prompts ist der Schlüssel zu hochwertigen Bildern, denn dieser bestimmt den Inhalt, den Stil und die Komposition.
In Midjourney erfolgt die Eingabe von Prompts über das Discord-Interface in Englisch. Begonnen wird mit dem Befehl /imagine gefolgt von der Beschreibung.
Beispiel:/imagine a futuristic cityscape at sunset, vibrant colors, ultra-realistic
Die KI interpretiert diese Eingaben und erstellt auf Basis der Beschreibung ein Bild. Ein guter Prompt hängt davon ab, wie klar und detailliert die Beschreibung ist. Zum Beispiel:
Soll zum Beispiel eine Bleistiftskizze einer jungen Katze auf einem Kissen generiert werden, lautet der Prompt:
/imagine a pencil sketch style young caton a cushion
Hier einige Beispiele für verschiedene Stile:
Auch verschiedene Zeitepochen mit ihren typischen Stilmerkmalen sind möglich:
Midjourney bietet eine Reihe von Parametern, mit denen der Output weiter gesteuert werden kann, zum Beispiel:
Beispielprompt:
/imagine a futuristic cityscape at sunset, vibrant colors, flying cars, skyscrapers made of glass, ultra-realistic --ar 16:9 --q 2
Gibt man diesen Prompt ein, kommt folgender Output:
Nach der Generierung werden vier Bildvarianten angezeigt, welche nun weiter bearbeitet werden können:
Wenn beispielsweise die Farbgebung des vierten Bildes besonders ansprechend ist, das Bild jedoch noch nicht vollständig den eigenen Vorstellungen entspricht, lässt sich durch einen Klick auf „V4“ eine Serie von vier Varianten generieren:
In diesem Beispiel entscheiden wir uns wieder für das vierte Bild und erstellen durch einen Klick auf “U4” ein hochskaliertes Bild:
Es besteht die Möglichkeit, das entstandene Bild weiter zu bearbeiten:
Sobald das gewünschte Ergebnis erreicht ist, muss das Bild lediglich heruntergeladen werden – damit ist das Bild einer futuristischen Stadt mit fliegenden Autos fertig.
Manchmal existiert eine klare Vorstellung vom gewünschten Bild, doch die passende Eingabeaufforderung zu finden, erweist sich als schwierig. Trotz zahlreicher Anpassungen bleibt das Resultat oft hinter den Erwartungen zurück. In solchen Fällen kann der Befehl /describe hilfreich sein, um bereits vorhandene Bilder zu analysieren, die dem gewünschten Bild ähneln. So lässt sich nachvollziehen, wie Midjourney diese interpretiert.
Nach Eingabe des Befehls erscheint eine Drag-&-Drop-Box zum Hochladen des Bildes:
Nachdem das passende Bild hochgeladen wurde, wird Midjourney vier Optionen anzeigen, die das Bild beschreiben. Danach muss nur noch die am besten passende Option ausgewählt und weiter optimiert werden, um den passenden Prompt für das eigene Projekt zu finden. Damit kann der Befehl /describe eine gute Hilfestellung sein, wenn Midjourney nicht die gewünschten Ergebnisse liefert.
Nachdem die grundlegenden Prinzipien der Bildgenerierung mit Midjourney erläutert wurden, folgt ein kompaktes Cheat-Sheet mit wichtigen Befehlen und Parametern. Dieses dient dazu, die Prompt-Erstellung weiter zu optimieren und die Bildausgaben präziser und kontrollierbarer zu gestalten.
Anweisung | Schreibweise | Beispiel im Prompt | Funktion und Anwendung |
---|---|---|---|
Bildgenerierung | /imagine | /imagine a sunset over mountains | Grundbefehl, um die Bildgenerierung zu starten. Immer gefolgt von einer Textbeschreibung des gewünschten Bildes. |
Bildbeschreibung | /describe | /describe [Bild hochladen] | Beschreibt ein hochgeladenes Bild in vier Textvarianten. |
Bilder aus URL laden | Bild-URL einfügen | /imagine [Bild-URL] a sunset over mountains | Ermöglicht es, Bild-URLs als Ausgangspunkt für die Bildgenerierung zu verwenden und sie mit textuellen Anweisungen zu kombinieren. |
Seitenverhältnis | --ar (Aspect Ratio) | /imagine a sunset over mountains --ar 16:9 | Definiert das Seitenverhältnis des Bildes. Standardmäßig 1:1. Möglich ist z. B. --ar 16:9 für breitere Bilder oder --ar 9:16 für Hochformate. |
Benutzerdefinierte Größen | --w, --h | /imagine a sunset over mountains --w 1920 --h 1080 | Legt eine benutzerdefinierte Bildbreite (--w) und Höhe (--h) in Pixeln fest, um eine spezifische Auflösung zu erhalten. |
Bildqualität | --q (Quality) | /imagine a sunset over mountains --q 2 | Erhöht die Bildqualität. Standard ist --q 1. Höhere Werte (bis zu --q 2) erhöhen die Detailtreue, verlängern jedoch die Bearbeitungszeit. |
Version auswählen | --v (Version) | /imagine a sunset over mountains --v 5 | Wählt eine spezifische Version der Midjourney-Engine. Zum Beispiel --v 5 oder --v 6 für die neuesten Versionen. |
Stilvorlage | --style | /imagine a sunset over mountains --style 1000 | Bestimmt den künstlerischen Stil der Bilder. Werte von 0 (realistisch) bis 1000 (extrem stilisiert). |
Chaosfaktor | --chaos | /imagine a sunset over mountains --chaos 80 | Erhöht die Zufälligkeit des Bildes. Werte von 0 bis 100; höhere Werte führen zu unvorhersehbaren und kreativen Ergebnissen. |
Scharfzeichnen | --hd | /imagine a sunset over mountains --hd | Aktiviert den "HD"-Modus für schärfere und detaillierte Bilder. |
Anzahl der Variationen | --n (Number of Variations) | /imagine a sunset over mountains --n 3 | Generiert eine festgelegte Anzahl von Variationen (zwischen 1 und 4). Standardmäßig werden vier Bilder generiert. |
bestimmte Objekte im Bild auschließen | --no [Objekt/Feature] | /imagine a sunset over mountains --no trees | Schließt bestimmte Elemente aus dem Bild aus, in diesem Fall werden keine Bäume im Bild generiert. |
Details priorisieren | --details | /imagine a sunset over mountains --details | Erhöht den Detailgrad im Bild. Funktioniert gut bei Bildern mit vielen Elementen, die detaillierter sein sollen. |
Farbbalance | --color | /imagine a sunset over mountains --color warm | Bestimmt den Farbton des Bildes, z. B. warm, cold oder vibrant. |
Schatteneffekte | --shadow | /imagine a sunset over mountains --shadow | Fügt tiefere Schatten und realistische Beleuchtung hinzu, besonders in dunkleren Szenen. |
Abschließend einige Prompt-Beispiele mit den dazugehörigen Bildern, um einen Eindruck zu vermitteln, wozu Midjourney in der Lage ist.
/imagine Elephant made of glass, Kintsugi, orange sunset, national geographic, scenic landscape --ar 16:9
/imagine minimalistic photographie of black parrot, eating oranges, white background --ar 4:3
/imagine a large-format picture with a figure leaning on an orange (HEX #FF792B) tower PC in the foreground, in the background a wide wooded valley, with gently sloping cliffs and a bright, cloudy sky, low horizon, in the style of Pumpkin and Fruits by Yayoi Kusama, --ar 1600:1000
/imagine a cowboy sitting at a table in a tavern, playing poker, cowboy hat pulled low on his face, some cards in his hands, a superior laugh on his lips, frontal view, half-length figure, cards in orange (HEX #FF792B), --ar 16:9
/imagine a personification of language melting under an orange (HEX #FF792B) sun, surrealism in the style of Salvador Dalí, --ar 8:5
Diesen Beitrag teilen: