Stable Diffusion: Tutorials, Ressourcen und Tools

Veröffentlicht: 2022-09-08

Inhaltsverzeichnis

Ressourcen & Informationen
- Welche Bilder wurden zum Trainieren des Stable Diffusion-Modells verwendet?
- Wo finde ich Beispiele und Aufforderungen zur stabilen Diffusion?
- Gibt es einen offiziellen Discord-Server?
Werkzeuge & Software
- Wie führe ich Stable Diffusion unter Windows/Linux aus?
- Wie führe ich Stable Diffusion auf einem Mac aus?
- Wie groß ist das Stable Diffusion-Modell?
Tutorials & Anleitungen
- Stable Diffusion Prompt Builder
- Ultimativer Anfängerleitfaden
- Akasha-Chronik
- Eingabeaufforderung Cheatsheet
- Kunststile und Medien
- Visuelle und künstlerische Stile

Am 22. August kündigte der Gründer von Stability.ai, Emad Mostaque, die Veröffentlichung von Stable Diffusion an. Dieses generative KI-Kunstmodell verfügt über überlegene Fähigkeiten wie DALL·E 2 und ist auch als Open-Source-Projekt verfügbar. In den Wochen seit seiner Veröffentlichung haben die Leute ihre Bemühungen und Projekte aufgegeben, um Stable Diffusion ihre volle Aufmerksamkeit zu widmen.

Ich war schon ziemlich aufgeregt, als OpenAI DALL·E 2 ankündigte, und ich hatte auch das Glück, einen frühen Zugang zu bekommen. Aber nachdem ich in den letzten Tagen mit Stable Diffusion herumgespielt habe, kann ich sagen, dass DALL·E 2 nicht annähernd an das heranreicht, was Stable Diffusion auf den Tisch bringt.

Und die Tatsache, dass es Open Source ist, macht es auch viel zugänglicher. In nur zwei Wochen haben Websites wie Lexica über 10 Millionen KI-generierte Bilder archiviert. Ich gehe auch davon aus, dass die Entwickler stetige Fortschritte bei der Integration von Stable Diffusion in die beliebtesten Grafikdesign-Tools wie Figma, Sketch und andere machen werden. Die Fähigkeit, unterwegs qualitativ hochwertige Kunst zu erstellen, ist beispiellos.

Der Zweck dieses Artikels besteht darin, alle interessanten und relevanten Tutorials, Ressourcen und Tools aufzulisten, die Ihnen helfen, sich schnell mit Stable Diffusion vertraut zu machen. Ich glaube, dass wir in den kommenden Monaten einen massiven Zustrom von Projekten sehen werden, die darauf spezialisiert sind, das größte Potenzial aus Stable Diffusion herauszuholen. Ich werde mein Bestes tun, um diesen Artikel entsprechend zu aktualisieren.

Tutorials – dieser Abschnitt konzentriert sich stark auf Themen wie „Wie verwende ich Stable Diffusion?“ .
Ressourcen – Dieser Abschnitt konzentriert sich auf Fragen wie „Was ist stabile Diffusion?“.
Tools – Dieser Abschnitt basiert auf Tools, mit denen Sie Stable Diffusion verwenden können.

Also ohne Umschweife – beginnen wir mit den Grundlagen.

Ressourcen & Informationen

Eine der ersten Fragen, die viele Menschen zu Stable Diffusion haben, ist die Lizenz, unter der dieses Modell veröffentlicht wird, und ob die generierte Kunst für persönliche und kommerzielle Projekte kostenlos verwendet werden kann.

Die Lizenz, die Stable Diffusion verwendet, ist CreativeML Open RAIL-M und kann vollständig unter Hugging Face gelesen werden. Kurz gesagt: „Open Responsible AI Licenses (Open RAIL) sind Lizenzen, die den freien und offenen Zugang, die Wiederverwendung und die nachgelagerte Verbreitung von Derivaten von KI-Artefakten ermöglichen, solange die Nutzungsbeschränkungen immer gelten (einschließlich für abgeleitete Werke).“ .

Eine ausführlichere Erklärung zu dieser Lizenz finden Sie auf dieser BigScience-Seite.

Welche Bilder wurden zum Trainieren des Stable Diffusion-Modells verwendet?

KI-Modellierung ist das Mittel zum Erstellen und Trainieren von Algorithmen für maschinelles Lernen für einen bestimmten Zweck. In diesem Fall der Zweck, Bilder aus Benutzereingabeaufforderungen zu generieren.

Wenn Sie wissen möchten, welche Bilder Stable Diffusion verwendet hat: Andy Baio und Simon Willison haben eine gründliche Analyse von über 12 Millionen Bildern (von insgesamt 2,3 Milliarden) durchgeführt, die zum Trainieren des Stable Diffusion-Modells verwendet wurden.

Hier sind einige der wichtigsten Erkenntnisse:

Die zum Trainieren von Stable Diffusion verwendeten Datensätze wurden von LAION zusammengestellt.
Von den 12 Millionen Bildern, die sie abgetastet haben, stammten 47 % der gesamten Stichprobengröße von 100 Domains, wobei Pinterest 8,5 % des gesamten Datensatzes lieferte. Weitere Top-Quellen waren WordPress.com, Blogspot, Flickr, DeviantArt und Wikimedia.
Stable Diffusion schränkt die Verwendung von Kunst aus den Namen von Personen (sei es Prominente oder andere) nicht ein.

Es wird interessant sein zu sehen, wie sich das Modell entwickelt und ob Unternehmen bereit sein werden, ihre Medien zum Wachstum von Stable Diffusion beizutragen.

Wo finde ich Beispiele und Aufforderungen zur stabilen Diffusion?

Stable Diffusion unterscheidet sich unter anderem von DALL·E, um das Beste aus Stable Diffusion herauszuholen; Sie müssen etwas über seine Modifikatoren lernen. Insbesondere ein Modifikator wird als Seed bezeichnet. Immer wenn Sie ein Bild mit Stable Diffusion erzeugen, wird diesem Bild ein Seed zugewiesen, der auch als allgemeine Zusammensetzung dieses Bildes verstanden werden kann. Wenn Ihnen also ein bestimmtes Bild gefallen hat und Sie seinen Stil nachahmen möchten (oder zumindest so nah wie möglich), können Sie Samen verwenden.

Die beste Plattform, um Beispiele und die Eingabeaufforderungen zu finden, die zum Generieren dieser Bilder verwendet werden, ist Lexica, das über 10 Millionen Mustergrafiken archiviert. Jedes Kunstwerk enthält seine vollständige Eingabeaufforderung und die Seed-Nummer, die Sie selbst wiederverwenden können.

Gibt es einen offiziellen Discord-Server?

Ja!

Sie können darauf zugreifen, indem Sie [https://discord.gg/stablediffusion] besuchen; Es ist wichtig zu beachten, dass der Server das Generieren von Bildern vom Server selbst nicht mehr unterstützt. Diese Funktion war im Rahmen des Beta-Programms verfügbar. Wenn Sie Stable Diffusion von einem Discord-Server verwenden möchten, können Sie sich Projekte wie Yet Another SD Discord Bot ansehen oder deren Discord-Server besuchen, um es auszuprobieren.

Werkzeuge & Software

Wenn Sie die mit Stable Diffusion geschaffene Kunst gesehen haben oder von ihr fasziniert waren, fragen Sie sich vielleicht, ob Sie sie selbst ausprobieren können. Und die Antwort ist ja, und es gibt mehrere Möglichkeiten, Stable Diffusion kostenlos auszuprobieren, einschließlich der Möglichkeit, dies über den Browser oder Ihren Computer zu tun.

Der offizielle Weg dazu ist die Verwendung der DreamStudio-Plattform.

Jeder kann sich kostenlos registrieren und neue Konten erhalten 200 kostenlose Token. Diese Token reichen für 200 Generationen, solange Sie die Komplexität nicht erhöhen und die Höhe und Breite nicht über die Standardeinstellung von 512 × 512 hinaus ändern. Aber wenn Sie die Komplexität erhöhen, werden Ihnen wahrscheinlich schnell die Token ausgehen.

Wie führe ich Stable Diffusion unter Windows/Linux aus?

Die derzeit beliebteste Lösung für die lokale Ausführung von Stable Diffusion ist das Stable Diffusion Web UI Repo, das auf GitHub verfügbar ist. Basierend auf der Gradio-GUI kommt dies der DreamStudio-Oberfläche so nahe wie möglich, und Sie können sich von allen Einschränkungen verabschieden.

Was sind die PC-Anforderungen für Stable Diffusion?

– 4 GB (mehr wird bevorzugt) VRAM GPU (offizielle Unterstützung nur für Nvidia!)
– AMD-Benutzer sehen hier nach

Denken Sie daran, das Web-UI-Repo zu verwenden; Sie müssen das Modell selbst von Hugging Face herunterladen. Stellen Sie sicher, dass Sie die Installationsanleitung (Windows) vollständig gelesen haben, um sie richtig einzurichten. Lesen Sie für Linux diese Anleitung. Und Sie können es auch auf Google Colab zum Laufen bringen – Anleitung hier.

Gibt es Alternativen zum Ausführen von SD unter Windows oder Linux?

Stable Diffusion UI wird immer beliebter (1-Klick-Installation für Windows und Linux).

Wie führe ich Stable Diffusion auf einem Mac aus?

Charlie Holtz hat CHARL-E veröffentlicht, ein 1-Klick-Installationsprogramm für Mac-Benutzer (M1 und M2).

Stable Diffusion auf Ihrem Mac mit 1 Klick mit CHARL-E

Die Funktionen:

Laden Sie automatisch alle erforderlichen Gewichte herunter.
Sie können eine Seed-Nummer und DDIM-Sampling festlegen.
Generierte Bilder werden in einer Galerie gespeichert.

Als Alternative gibt es auch Diffusion Bee.

Wie groß ist das Stable Diffusion-Modell?

Wie ich oben erwähnt habe, müssen Sie das Stable Diffusion-Modell herunterladen, und den Link finden Sie hier. Sie müssen ein Konto bei Hugging Face erstellen und anschließend die Lizenzbedingungen des Modells akzeptieren, bevor Sie seine Dateien anzeigen und herunterladen können.

stabile Diffusionsmodelldateien auf umarmendem Gesicht

Eine der Fragen, die die Leute haben, lautet: „Wie kommt es, dass das Modell nur 4 GB groß ist, obwohl es aus über 2 Milliarden Bildern erstellt wurde?“ .

Und die beste Antwort auf diese Frage kommt von einer Hacker-News-Benutzerin juliendorra ⟶

Das ist der interessante Teil: Alle generierten Bilder stammen von einem Modell mit weniger als 4 GB (den trainierten Gewichten des neuronalen Netzwerks).

In gewisser Weise werden also Hunderte Milliarden möglicher Bilder alle im Modell gespeichert (jedes ein Vektor im mehrdimensionalen latenten Raum) und bei Bedarf in Pixel umgewandelt (angetrieben durch das Sprachmodell, das weiß, wie man Wörter in diesem Raum in einen Vektor umwandelt )

Da es deterministisch ist (bei genau denselben Anforderungsparametern, einschließlich Zufallsstartwert, erhalten Sie genau dasselbe Bild), ist es auch eine Form der Komprimierung (oder zumindest Codierung und Decodierung): Ich könnte Ihnen die Parameter für 1 Million Bilder senden, die Sie wären auf Ihrer Seite nachbauen können, genauso wie eine relativ kleine Textdatei.

Tutorials & Anleitungen

Der folgende Abschnitt ist ausschließlich Tutorials und Leitfäden gewidmet, die Ihnen dabei helfen sollen, das Beste aus Ihren Stable Diffusion-Eingabeaufforderungen herauszuholen. Wie gesagt, ich werde mein Bestes tun, um dies auf dem neuesten Stand zu halten, sobald weitere Leitfäden verfügbar sind und ein besseres Verständnis des Modells gewonnen wird.

Stable Diffusion Prompt Builder

Es gibt unten zusätzliche Styleguides, aber was das visuelle Erstellen von Eingabeaufforderungen angeht – das promptoMANIA-Tool ist wahrscheinlich das beste, das es gibt.

Sie können beginnen, indem Sie die Beschreibung des Bildes hinzufügen, das Sie erstellen möchten, und dann nach unten scrollen, um Details hinzuzufügen und die Stile verschiedener Künstler nachzuahmen. Es stehen Hunderte von Optionen zur Auswahl, jede mit einer visuellen Vorschau.

Wenn Sie mit dem Erstellen Ihrer Zeichenfolge fertig sind, können Sie sie kopieren und dann in ein beliebiges Tool einfügen, das Sie zum Generieren von Stable Diffusion-Bildern verwenden.

Ultimativer Anfängerleitfaden

Arman Chaudhry hat eine kompakte Google Docs-Präsentation über die Grundlagen von SD veröffentlicht.

Dieser Leitfaden behandelt alle von SD unterstützten Modifikatoren, empfiehlt aber auch bewährte Verfahren für Breiten-/Höheneinstellungen und häufige Fehler, die vermieden werden sollten.

Akasha-Chronik

Wenn Sie tiefer eintauchen möchten (oder Referenzen für die Recherche benötigen) – das SD Akashic Records-Repository bietet eine erstaunliche Menge an Ressourcen, die Sie studieren können.

Sie finden alles, von der Keyword-Nutzung über die Prompt-Optimierung bis hin zu Styleguides. Es werden auch mehrere Tools erwähnt, die nicht bereits in diesem Artikel erwähnt wurden.

Eingabeaufforderung Cheatsheet

Wenn Sie nach Inspiration suchen, um benutzerdefinierte Stile und Effekte auf Ihre Eingabeaufforderungen anzuwenden, sehen Sie sich diesen Blogbeitrag von Moritz an. Es umfasst sofortige Ergänzungen für Konzepte wie 2D- und 3D-Kunst, Details, Beleuchtung, Farben und Umgebungen.

Kunststile und Medien

In dieser Google Docs-Datei finden Sie mehr als 100 verschiedene Stile und Medien, die Sie für Ihre SD-Bilderzeugung verwenden können. Das Dokument basiert auf einer einzigen Eingabeaufforderung, und die besagte Eingabeaufforderung wurde in Hunderten von verschiedenen Stilen generiert, sodass Sie denselben Stil in Ihren Eingabeaufforderungen replizieren können.

Visuelle und künstlerische Stile

Sehen Sie sich diese modifiers.json-Datei auf GitHub an, um weitere Stile und Künstlerempfehlungen zu erhalten. Es sind über 200 verschiedene Modifikatoren, die Sie auf Ihre Eingabeaufforderungen anwenden können.