안정적인 확산: 튜토리얼, 리소스 및 도구

게시 됨: 2022-09-08
목차
  • 리소스 및 정보
    • Stable Diffusion 모델을 학습시키기 위해 어떤 이미지가 사용되었습니까?
    • Stable Diffusion 예제 및 프롬프트는 어디에서 찾을 수 있습니까?
    • 공식 Discord 서버가 있습니까?
  • 도구 및 소프트웨어
    • Windows/Linux에서 Stable Diffusion을 실행하는 방법은 무엇입니까?
    • Mac에서 Stable Diffusion을 실행하는 방법은 무엇입니까?
    • Stable Diffusion 모델의 크기는 얼마입니까?
  • 튜토리얼 및 가이드
    • 안정적인 확산 프롬프트 빌더
    • 궁극의 초보자 가이드
    • 아카식 레코드
    • 프롬프트 치트시트
    • 아트 스타일 및 매체
    • 비주얼 및 아티스트 스타일

8월 22일 Stability.ai의 설립자 Emad Mostaque는 Stable Diffusion의 출시를 발표했습니다. 이 AI 생성 예술 모델은 DALL·E 2와 같은 우수한 기능을 가지고 있으며 오픈 소스 프로젝트로도 사용할 수 있습니다. 출시 이후 몇 주 동안 사람들은 Stable Diffusion에 모든 관심을 기울이기 위해 노력과 프로젝트를 포기했습니다.

OpenAI가 DALL·E 2를 발표했을 때 이미 상당히 기대가 컸고 운 좋게 얼리 액세스도 받았습니다. 그러나 지난 며칠 동안 Stable Diffusion을 사용해 본 결과, DALL·E 2는 Stable Diffusion이 테이블에 가져오는 것에 근접하지 않았다고 말할 수 있습니다.

그리고 그것이 오픈 소스라는 사실은 또한 그것을 훨씬 더 쉽게 접근할 수 있게 합니다. 단 2주 만에 Lexica와 같은 사이트는 천만 개 이상의 AI 생성 이미지를 보관했습니다. 또한 개발자들이 Figma, Sketch 등과 같은 가장 인기 있는 그래픽 디자인 도구와 Stable Diffusion을 통합하기 위해 꾸준히 발전할 것으로 기대합니다. 이동 중에도 고품질 아트를 생성할 수 있는 능력은 전례가 없습니다.

케랄라 마을, 샤프 포커스, 와이드 샷, ArtStation에서 인기 급상승, 걸작, Greg Rutkowski, Ross Tran, Fenghua Zhong, 옥탄, 소프트 렌더, 캔버스에 오일, 다채로운, 영화 같은, 환경 컨셉 아트
"케랄라 마을, 날카로운 초점, 와이드 샷, artstation에서 유행, 걸작, greg rutkowski, ross tran, fenghua zhong, 옥탄, 소프트 렌더, 캔버스에 유채, 다채로운, 영화, 환경 컨셉 아트"

이 기사의 목적은 Stable Diffusion에 빠르게 적응하는 데 도움이 되는 흥미롭고 관련성이 높은 모든 자습서, 리소스 및 도구를 나열하는 것입니다. 저는 앞으로 몇 달 동안 Stable Diffusion에서 최대한의 잠재력을 추출하는 것을 전문으로 하는 대규모 프로젝트가 유입될 것이라고 믿습니다. 이에 따라 이 기사를 최신 상태로 유지하기 위해 최선을 다할 것입니다.

  • 자습서 - 이 섹션은 "안정적인 확산을 사용하는 방법" 과 같은 주제에 중점을 둡니다. .
  • 리소스 – 이 섹션은 "안정된 확산이란 무엇입니까?"와 같은 쿼리에 중점을 둡니다.
  • 도구 – 이 섹션은 안정적인 확산을 사용할 수 있는 도구를 기반으로 합니다.

더 이상 고민하지 않고 기본부터 시작하겠습니다.


리소스 및 정보

많은 사람들이 Stable Diffusion에 대해 가지고 있는 첫 번째 질문 중 하나는 이 모델이 게시된 라이선스와 생성된 아트가 개인 및 상업적 프로젝트에 무료 로 사용할 수 있는지 여부입니다.

Stable Diffusion이 사용하는 라이선스는 CreativeML Open RAIL-M 이며 Hugging Face에서 전체 내용을 읽을 수 있습니다. 요컨대, "책임 있는 개방형 AI 라이선스(Open RAIL)는 행동 사용 제한이 항상 적용되는 한 AI 인공물 파생물의 무료 공개 액세스, 재사용 및 다운스트림 배포를 허용하도록 설계된 라이선스입니다(파생 저작물 포함)." .

이 라이선스에 대한 자세한 설명은 이 BigScience 페이지에서 확인할 수 있습니다.

Stable Diffusion 모델을 학습시키기 위해 어떤 이미지가 사용되었습니까?

AI 모델링은 특정 목적을 위해 기계 학습 알고리즘을 만들고 훈련시키는 수단입니다. 이 경우 사용자 프롬프트에서 이미지를 생성하는 목적입니다.

Stable Diffusion이 어떤 이미지를 사용했는지 궁금하시다면 Andy Baio와 Simon Willison이 Stable Diffusion 모델을 훈련하는 데 사용된 1,200만 개 이상의 이미지(총 23억 개)를 철저히 분석했습니다.

다음은 몇 가지 핵심 사항입니다.

  • Stable Diffusion을 훈련하는 데 사용된 데이터 세트는 LAION에서 통합한 데이터 세트입니다.
  • 그들이 샘플링한 1,200만 이미지 중 전체 샘플 크기의 47%는 100개 도메인에서 가져왔으며 Pinterest는 전체 데이터 세트의 8.5%를 차지했습니다. 다른 상위 소스로는 WordPress.com, Blogspot, Flickr, DeviantArt 및 Wikimedia가 있습니다.
  • Stable Diffusion은 유명인이든 아니든 사람들의 이름으로 예술을 생성하는 것을 제한하지 않습니다.

모델이 어떻게 진화하고 기업이 Stable Diffusion의 성장을 돕기 위해 미디어를 기꺼이 기여할 것인지 보는 것은 흥미로울 것입니다.

Stable Diffusion 예제 및 프롬프트는 어디에서 찾을 수 있습니까?

Stable Diffusion이 DALL·E와 다른 점 중 하나는 Stable Diffusion을 최대한 활용하는 것입니다. 당신 은 그것 의 수정자 에 대해 배워야 합니다 . 특히 한 수정자는 seed 라고 합니다. 안정적인 확산으로 이미지를 생성할 때마다 해당 이미지에 시드가 할당되며 이는 해당 이미지의 일반적인 구성으로도 이해할 수 있습니다. 따라서 특정 이미지가 마음에 들었고 그 스타일을 복제하려는 경우(또는 최소한 가능한 한 가깝게) 시드를 사용할 수 있습니다.

렉시카

예제와 이러한 이미지를 생성하는 데 사용된 프롬프트를 찾는 데 가장 적합한 플랫폼은 1천만 개 이상의 샘플 아트워크를 보관하는 Lexica입니다. 각 아트웍에는 전체 프롬프트와 시드 번호가 포함되어 있으며 이를 다시 사용할 수 있습니다.

공식 Discord 서버가 있습니까?

예!

[https://discord.gg/stablediffusion]을 방문하여 액세스할 수 있습니다. 서버는 더 이상 서버 자체에서 이미지 생성을 지원하지 않습니다. 이 기능은 베타 프로그램의 일부로 제공되었습니다. Discord 서버에서 Stable Diffusion을 사용하려면 Yet Another SD Discord Bot과 같은 프로젝트를 살펴보거나 Discord 서버를 방문하여 사용해 볼 수 있습니다.


도구 및 소프트웨어

Stable Diffusion으로 만든 예술을 보았거나 매료되었다면 직접 시도해 볼 수 있는지 궁금할 것입니다. 그리고 대답은 예입니다. 브라우저나 컴퓨터에서 하는 것을 포함하여 Stable Diffusion을 무료로 사용해 볼 수 있는 여러 가지 방법이 있습니다.

공식적인 방법은 DreamStudio 플랫폼을 사용하는 것입니다.

드림스튜디오 예제

누구나 무료로 등록할 수 있으며 새 계정에는 200개의 무료 토큰이 무료로 제공됩니다. 이 토큰은 복잡성을 늘리지 않고 높이와 너비를 512×512 기본 설정 이상으로 변경하지 않는 한 200세대에 충분합니다. 그러나 복잡성을 높이면 토큰이 빨리 소진될 것입니다.

Windows/Linux에서 Stable Diffusion을 실행하는 방법은 무엇입니까?

현재 로컬에서 Stable Diffusion을 실행하기 위한 가장 인기 있는 솔루션은 GitHub에서 사용할 수 있는 Stable Diffusion 웹 UI 리포지토리입니다. Gradio GUI를 기반으로 DreamStudio 인터페이스에 가장 가깝고 모든 제한 사항에 작별 인사를 할 수 있습니다.

안정적인 확산을 위한 PC 요구 사항은 무엇입니까?

4GB(이상 권장) VRAM GPU(Nvidia만 공식 지원!)
AMD 사용자는 여기에서 확인

웹 UI 리포지토리를 사용하려면 기억하세요. Hugging Face에서 직접 모델을 다운로드해야 합니다. 설치 가이드(Windows)를 완전히 읽고 올바르게 설정하십시오. Linux의 경우 이 가이드를 확인하세요. 또한 Google Colab에서 시작하여 실행할 수도 있습니다. 여기에서 가이드를 참조하세요.

Windows 또는 Linux에서 SD를 실행하는 것에 대한 대안이 있습니까?

안정적인 확산 UI가 인기를 얻고 있습니다(Windows 및 Linux용 원클릭 설치).

Mac에서 Stable Diffusion을 실행하는 방법은 무엇입니까?

Charlie Holtz는 Mac(M1 및 M2) 사용자를 위한 원클릭 설치 프로그램인 CHARL-E를 출시했습니다.

CHARL-E로 클릭 한 번으로 Mac에서 안정적인 확산

특징:

  • 필요한 모든 가중치를 자동으로 다운로드합니다.
  • 시드 번호와 DDIM 샘플링을 설정할 수 있습니다.
  • 생성된 이미지는 갤러리에 저장됩니다.

대안으로 고려해야 할 확산 꿀벌도 있습니다.

Stable Diffusion 모델의 크기는 얼마입니까?

위에서 언급했듯이 Stable Diffusion 모델을 다운로드해야 하며 링크는 여기에서 찾을 수 있습니다. Hugging Face에서 계정을 생성해야 하며, 이후 모델의 사용 조건에 동의해야 파일을 보고 다운로드할 수 있습니다.

포옹 얼굴에 안정적인 확산 모델 파일

사람들이 궁금해하는 질문 중 하나는 "20억 개 이상의 이미지로 만든 모델이 왜 4GB에 불과합니까?"입니다. .

그리고 이 질문에 대한 가장 좋은 답변은 Hacker News 사용자 juliendorra ⟶

흥미로운 부분입니다. 생성된 모든 이미지는 4GB 미만 모델(신경망의 훈련된 가중치)에서 파생됩니다.

따라서 어떤 면에서는 수천억 개의 가능한 이미지가 모두 모델(각각 다차원 잠재 공간의 벡터)에 저장되고 요청 시 픽셀로 변환됩니다(이 공간에서 단어를 벡터로 바꾸는 방법을 알고 있는 언어 모델에 의해 구동됨) )

그것은 결정적이기 때문에(정확히 동일한 요청 매개변수가 주어지고 임의의 시드가 포함되어 정확히 동일한 이미지를 얻음) 압축(또는 최소한 인코딩 디코딩)의 한 형태이기도 합니다. 상대적으로 작은 텍스트 파일처럼 사용자 측에서 다시 만들 수 있습니다.


튜토리얼 및 가이드

다음 섹션은 Stable Diffusion 프롬프트에서 가장 많은 주스를 추출하는 데 도움이 되는 자습서 및 가이드에 전적으로 전념합니다. 내가 말했듯이, 더 많은 가이드가 제공되고 모델에 대한 더 나은 이해가 확보되면 이 업데이트를 유지하기 위해 최선을 다할 것입니다.

안정적인 확산 프롬프트 빌더

아래에 추가 스타일 가이드가 있지만 시각적으로 프롬프트를 구축하는 한 promptoMANIA 도구가 아마도 최고일 것입니다.

만들려는 이미지에 대한 설명을 추가하여 시작한 다음 아래로 스크롤하여 세부 정보를 추가하고 다양한 아티스트의 스타일을 모방할 수 있습니다. 선택할 수 있는 수백 가지 옵션이 있으며 각 옵션에는 시각적 미리 보기가 있습니다.

문자열 작성을 마치면 문자열을 복사한 다음 Stable Diffusion 이미지를 생성하는 데 사용하는 도구에 붙여넣을 수 있습니다.

궁극의 초보자 가이드

Arman Chaudhry는 SD의 필수 요소에 대한 간단한 Google 문서 프레젠테이션을 게시했습니다.

이 가이드는 SD가 지원하는 모든 수정자를 다루지만 너비/높이 설정에 대한 모범 사례와 피해야 할 일반적인 실수도 권장합니다.

아카식 레코드

심층 분석을 하려는 경우(또는 연구를 위한 참조가 필요한 경우) SD Akashic Records 리포지토리에는 연구할 수 있는 엄청난 양의 리소스가 있습니다.

키워드 사용부터 프롬프트 최적화, 스타일 가이드에 이르기까지 모든 것을 찾을 수 있습니다. 이 기사에서 이미 언급한 것 외에도 여러 도구에 대한 언급도 있습니다.

프롬프트 치트시트

프롬프트에 사용자 정의 스타일과 효과를 적용할 영감을 찾고 있다면 Moritz의 이 블로그 게시물을 확인하십시오. 2D 및 3D 아트, 세부 사항, 조명, 색상 및 환경과 같은 개념에 대한 즉각적인 추가를 다룹니다.

아트 스타일 및 매체

이 Google 문서도구 파일에서 SD 이미지 생성에 사용할 최대 100개 이상의 다양한 스타일과 매체를 확인하세요. 이 문서는 단일 프롬프트를 기반으로 하며 프롬프트에서 동일한 스타일을 복제할 수 있도록 해당 프롬프트가 수백 가지 다른 스타일로 생성되었습니다.

비주얼 및 아티스트 스타일

추가 스타일 및 아티스트 권장 사항은 GitHub에서 이 modifiers.json 파일을 확인하세요. 프롬프트에 적용할 수 있는 200가지가 넘는 다양한 수식어가 있습니다.