Ce este difuzia stabilă și cum să-i maximizezi puterea

Liam Miller
iul. 26, 2023 / Actualizat de Liam Miller la Instrumente AI

Avansul Inteligenței Artificiale preia acum câteva programe care vor ajuta la generarea de imagini. Este posibil să vedeți instrumentul Stable Diffusion. Dar ce este Stable Diffusion? Acesta este un instrument de generare de imagini. Scopul său principal este de a genera imagini folosind solicitări, iar oamenii consideră că este atrăgător și distractiv să genereze diferite personaje și elemente împreună. Aflați mai multe despre ce este Stable Diffusion și aflați cum funcționează.

Partea 1: Ce este difuzia stabilă

Este un model de învățare profundă, text-to-image, care creează imagini prin introducerea de solicitări pentru a descrie subiectul principal. De exemplu, puteți pune „pisica”, iar instrumentul va genera o imagine a unei pisici. Cu toate acestea, poate sublinia sau adăuga mai multe detalii atunci când introduceți solicitări complexe. Rețeaua neuronală generativă devine mai mult decât un instrument de inteligență artificială, deoarece este, de asemenea, condiționată de alte sarcini, cum ar fi desenarea, pictura în interior și traducerea imagine-la-imagine prin mesaje text.

Stable Diffusion a fost dezvoltat și finanțat de Stability AI, dar grupul CompVis de la Universitatea Ludwig Maximilian din München deține licența tehnică pentru modelul de difuzie latentă. Mai mult, dezvoltarea a fost condusă de cercetătorii Patrick Esser și Robin Rombach, obținând mai multe date de instruire de la organizații non-profit din Germania, în calitate de susținători ai proiectelor. Mai târziu, în octombrie 2022, compania a strâns $101 milioane USD după ce a introdus-o inițial în august 2022.

Difuzie stabilă

Partea 2. Ce este difuzia stabilă a VAE

Este posibil să fi întâlnit acest lucru atunci când utilizați generatorul de fotografii AI, iar VAE este util pentru instrument. VAE înseamnă Variable Auto Encoder, folosit pentru a regla fin decodorul pentru a picta detalii mai bune. Este un plus la instrumentul AI, deoarece poate ajuta la obținerea de imagini mai clare și culori vibrante și la îmbunătățirea generației de mâini și fețe.

Desigur, VAE este pentru mai mult decât Stable Diffusion, deoarece toate modelele au VAE încorporate pentru a rezolva detaliile. Comparația va fi rezultatul dintre fiecare model și modul în care vor ieși atunci când comprimați imaginile. Mai mult, există fișiere VAE separate pe care le puteți descărca pe dispozitiv. Pentru a încerca un decodor, puteți folosi următoarele:

Vae Files

Partea 3. Ce este Dreambooth pe Stable Diffusion și cum se instalează

DreamBooth este un model de generare de învățare profundă care ajustează imaginile generate, în special subiectul specific. Inițial, se bazează pe modelul text-to-image al Imagen, dar, din păcate, Imagen nu are greutățile pre-antrenate precum Stable Diffusion sau alte instrumente AI. DreamBooth a fost dezvoltat în continuare de Google Researchers și de unii colegi de la Universitatea din Boston în 2022.

Lucrarea modelului este de a modifica și ajusta fotografiile generate, dar este, de asemenea, capabil să reda subiecte familiare în orice cadru și situație. Deoarece majoritatea modelelor de difuzie pre-antrenate încă mai trebuie îmbunătățite în această categorie, DreamBooth va spori pregătirea pentru modelele de difuzie. Cu doar cinci imagini, modificarea imaginii se poate face cu platforme precum Stable Diffusion. Iată o scurtă instrucțiune despre cum să utilizați DreamBooth pe Stable Diffusion:

Pasul 1.În primul rând, trebuie să aveți imagini de antrenament ale unui subiect pentru a le utiliza pe DreamBooth. Asigurați-vă că subiectul are imagini capturate. Continuați să redimensionați imaginile la 512x512 pixeli.

Pasul 2.Deschideți DreamBooth și intrați Prompt de instanță și Solicitare de clasă. Procesați modificările făcând clic pe Joaca butonul din partea stângă a interfeței.

Solicitare pentru instanță Dreambooth

Pasul 3.Când ați terminat, testați-l și veți primi câteva mostre generate de model. Puteți descărca fișierul punctului de control al modelului de pe Google Drive și îl puteți instala în GUI.

Testul Dreambooth

Partea 4. Ce este scala CFG în difuzie stabilă

Puteți găsi Această valoare setată în modelul de generator de fotografii. Și din moment ce este esențial, trebuie să înveți ce merită să optimizați imaginile. Scala de orientare gratuită a clasificatorului permite utilizatorilor să ajusteze gradul de apropiere a rezultatului din imaginea de intrare sau prompturile utilizate. De exemplu, atunci când reglați Scala CFG la o valoare mai excelentă, rezultatul va fi mai asemănător cu imaginea de intrare, dar este de așteptat să fie distorsionat. Pe de altă parte, o scară CGF mai mică va îndepărta rezultatul de promptul primar, generând în același timp o calitate mai bună.

Dar când trebuie să utilizați scala CFG pe Stable Diffusion? Răspunsul este simplu: generatorul de fotografii AI nu poate crea ceva care nu este în cunoștințele sale, așa că scala CFG vă va ajuta să combinați mai multe subiecte prin creșterea valorii sale. Singurul dezavantaj este costul calității imaginii, care este proporțională cu solicitările. Dacă sunteți interesat de acest instrument, trebuie să exersați calibrarea scalei pentru a găsi punctul ideal.

Scala CFG

Partea 5. Ce este reducerea zgomotului Difuziunea stabilă

Această metodă inițiază un proces care adaugă zgomot imaginilor de intrare. Este doar o Stable Diffusion upscaler. Este o valoare excelentă pentru Stable Diffusion, deoarece poate ajunge prin imagine-la-image(img2img) sau InPaint. Cantitatea de zgomot este controlată de Intensitatea Denoise, de la un minim de 0 la un maxim de 1. Punerea valorii la 0 va reduce zgomotul la niciunul, făcând o imagine similară cu imaginea de intrare. În caz contrar, valoarea 1 va înlocui intrarea cu zgomot.

Puteți utiliza Forța Denoise ca metodă practică pentru a determina apropierea ieșirii cu influența imaginilor de intrare. Un exemplu grozav este o putere de reducere a zgomotului care face ca imaginile generate să arate mai aproape de intrare, o setare ideală pentru modificări minore. Pe de altă parte, o putere mai mare de reducere a zgomotului va crește probabil variația, reducând în același timp similitudinea imaginilor de intrare și de ieșire. Prin urmare, valorile mai mari sunt utile pentru modificări semnificative.

Puterea de dezgomot

Partea 6. Ce este Clip Skip Stable Diffusion și cum se utilizează

CLIP este cunoscut ca un strat de încorporare care este utilizat pentru analiza textelor. Structura sa este compusă din straturi, care per individ, sunt mai specifice decât precedentul. De exemplu, stratul 1 poate fi „Persoană”, iar stratul 2 va fi „feminin” sau „bărbat”. Apoi, următorul strat va fi „părinte, tată, bărbat, băiat etc.”

Scopul său este de a obține modelul de text precis, care oprește lista lungă de straturi, amestecând în cele din urmă mai multe date și oferindu-vă mai mult decât aveți nevoie. Cel mai bun exemplu în acest sens este modelul 1.5 cu adâncime de 12 ranguri. Fiecare strat are încorporare de text și poate fi amestecat cu alte detalii, cum ar fi dimensiunea, culoarea etc. CLIP omite dimensiunea spațiului text și ajunge la rezultatul exact. Iată cum să-l folosești:

Pasul 1.Din punctul de control Stable Diffusion, mergeți la setări și selectați „Stable Diffusion”.

Pasul 2.Derulați în jos și accesați „Clip Skip”. Setați-o la valoarea dorită, apoi derulați în sus pentru a face clic pe butonul „Aplicați setările”.

Clip Skip

Partea 7. Ce este viteza de generare a difuziei stabile și cum se accelerează

Când vă uitați la viteza unui generator AI, vă veți aștepta că va dura ceva timp pentru a afișa rezultatele. Cu toate acestea, Stable Diffusion are o viteză de generare de 10 secunde. Acest lucru este doar pentru utilizarea generală a instrumentului online, dar timpul se poate reduce în continuare cu până la patru secunde atunci când vă abonați la planul principal sau standard. Aceasta este o modalitate de a accelera viteza modelului, dar precizia rezultatului se îndepărtează de intrare Solicitări de difuzie stabilă. În plus, instrumentul este gratuit, cu doar câteva limitări ale caracteristicilor din planurile cu preț. Deci, cum accelerați viteza de generare în timp ce nu plătiți?

Singura cerință pentru accelerare este un card Nvidia, care poate fi în seriile 4000, 3000, 2000 și chiar 1000. Puteți folosi Lovelace, Ampere, Pascal Turing etc. Pentru o alternativă, utilizați o precizie mai mică precum float16 și rulați mai puțini pași de inferență.

Sfaturi bonus: Schimbați dimensiunea rezultatelor difuziei stabile

După ce ați aflat despre modelul AI, mai trebuie să știți un lucru: dimensiunea fișierului este un factor masiv pentru imagini și vă pot consuma spațiul de stocare din cauza dimensiunilor mai mari ale fișierelor. Dar cu AnyRec Free Image Compressor Online, comprimarea fotografiilor va fi convenabilă. Instrumentul online are cea mai recentă tehnologie AI pentru a ajuta la optimizarea încărcărilor, reducând în același timp dimensiunea fișierului. Pe măsură ce generează fișiere mai mici, utilizatorul poate importa mai multe imagini din folderul local, iar compresorul le va încărca instantaneu.

Partea 8. Întrebări frecvente despre Stable Diffusion

Concluzie

Această postare explică ce este Stable Diffusion și cum funcționează cu Clip Skip, VAE, DreamBooth, CFG Scale și Denoising Strength. Pe de altă parte, puteți utiliza AnyRec Free Image Compressor Online pentru a reduce dimensiunile fișierelor imaginilor generate. Este complet gratuit și nelimitat de utilizat!

Articole similare: