Hva er stabil diffusjon og hvordan du maksimerer kraften

Liam Miller
26. jul 2023 / Oppdatert av Liam Miller til AI-verktøy

Fremskrittet for kunstig intelligens tar nå over noen programmer som vil bidra til å generere bilder. Du kan se verktøyet for stabil diffusjon. Men hva er stabil diffusjon? Dette er et bildegenererende verktøy. Hovedformålet er å generere bilder ved hjelp av ledetekster, og folk synes det er tiltalende og morsomt å generere ulike karakterer og elementer sammen. Lær mer om hva som er stabil diffusjon og finn ut hvordan det fungerer.

Del 1: Hva er stabil diffusjon

Det er en dyp læring, tekst-til-bilde-modell, som lager bilder ved å skrive inn spørsmål for å beskrive hovedemnet. For eksempel kan du sette "katt", og verktøyet vil generere et bilde av en katt. Det kan imidlertid ytterligere understreke eller legge til flere detaljer når du legger inn komplekse spørsmål. Det generative nevrale nettverket blir mer enn et AI-verktøy, ettersom det også er betinget med andre oppgaver som utmaling, innmaling og bilde-til-bilde-oversettelse via tekstmeldinger.

Stable Diffusion ble utviklet og finansiert av Stability AI, men CompVis-gruppen ved Ludwig Maximilian University of München har den tekniske lisensen for den latente diffusjonsmodellen. Videre ble utviklingen ledet av forskerne Patrick Esser og Robin Rombach, og fikk mer opplæringsdata fra ideelle organisasjoner i Tyskland som støttespillere for prosjektene. Senere i oktober 2022 samlet selskapet inn US$101 millioner etter først å ha introdusert det i august 2022.

Stabil diffusjon

Del 2. Hva er VAE stabil diffusjon

Du kan ha støtt på dette når du bruker AI-fotogeneratoren, og VAE er nyttig for verktøyet. VAE står for Variable Auto Encoder, som brukes til å finjustere dekoderen for å male bedre detaljer. Det er et tillegg til AI-verktøyet, da det kan bidra til å få skarpere bilder og livlige farger og forbedre genereringen av hender og ansikter.

Selvfølgelig er VAE for mer enn bare stabil diffusjon fordi alle modellene har innebygde VAE-er for å finne ut detaljene. Sammenligningen vil være resultatet mellom hver modell og hvordan de blir når du komprimerer bildene. Dessuten er det separate VAE-filer som du kan laste ned på enheten din. For å prøve én dekoder kan du bruke følgende:

Vae filer

Del 3. Hva er Dreambooth på stabil diffusjon og hvordan installeres

DreamBooth er en dyp læringsgenerasjonsmodell som finjusterer genererte bilder, spesielt det spesifikke emnet. I utgangspunktet er den basert på Imagens tekst-til-bilde-modell, men dessverre har ikke Imagen de ferdigtrente vektene som Stable Diffusion eller andre AI-verktøy. DreamBooth ble videreutviklet av Google Researchers og noen kolleger fra Boston University i 2022.

Arbeidet til modellen er å modifisere og finjustere genererte bilder, men den er også i stand til å gjengi kjente motiver i enhver setting og situasjon. Siden de fleste ferdigtrente diffusjonsmodellene fortsatt må forbedres i denne kategorien, vil DreamBooth øke opplæringen for diffusjonsmodeller. Med bare fem bilder kan bildemodifisering gjøres med plattformer som Stable Diffusion. Her er en kort instruksjon om hvordan du bruker DreamBooth på stabil diffusjon:

Trinn 1.Først må du ha treningsbilder av ett emne du kan bruke på DreamBooth. Sørg for at motivet har tatt bilder. Fortsett for å endre størrelsen på bildene til 512x512 piksler.

Steg 2.Åpne DreamBooth og skriv inn Forekomstmelding og Klassemelding. Behandle endringene ved å klikke på Spille knappen fra venstre del av grensesnittet.

Dreambooth-forekomstprompt

Trinn 3.Når du er ferdig, test den, og du vil motta noen få prøver generert av modellen. Du kan laste ned modellsjekkpunktfilen fra Google Drive og installere den i GUI.

Dreambooth test

Del 4. Hva er CFG-skala i stabil diffusjon

Du kan finne denne verdien satt i fotogeneratormodellen. Og siden det er viktig, må du lære hva som er verdt å optimalisere bilder. Classifier Free Guidance Scale lar brukerne justere graden av resultatet fra inndatabildet eller ledetekstene som brukes. For eksempel, når du justerer CFG-skalaen til en mer utmerket verdi, vil utgangen være mer lik inngangsbildet, men forventes å bli forvrengt. På den annen side vil en lavere CGF-skala få utgangen langt unna den primære ledeteksten samtidig som den genererer bedre kvalitet.

Men når trenger du å bruke CFG-skalaen på stabil diffusjon? Svaret er enkelt: AI-fotogeneratoren kan ikke lage noe som ikke er innenfor dens kunnskap, så CFG-skalaen vil hjelpe deg å kombinere flere emner ved å øke verdien. Den eneste ulempen er bekostning av bildekvalitet, som er proporsjonal med ledetekstene. Hvis du er interessert i dette verktøyet, må du øve deg på å kalibrere vekten for å finne sweet spot.

CFG-skala

Del 5. Hva er Denoising Styrke Stabil diffusjon

Denne metoden starter en prosess som legger til støy til inngangsbildene. Det er bare en Stabil diffusjonsoppskalerer. Det er en utmerket verdi for stabil diffusjon, da den kan komme gjennom bilde-til-bilde(img2img) eller InPaint. Støymengden styres av Denoise Strength, fra et minimum på 0 til et maksimum på 1. Hvis du setter verdien til 0, vil støyen reduseres til ingen, og lage et bilde som ligner på inndatabildet. Ellers vil verdien på 1 erstatte inngangen med støy.

Du kan bruke Denoise Strength som en praktisk metode for å bestemme utgangens nærhet til inngangsbildenes påvirkning. Et godt eksempel er en lavere Denoising Strength som får genererte bilder til å se nærmere inndata, en ideell innstilling for mindre modifikasjoner. På den annen side vil Higher Denoising Strength sannsynligvis øke variasjonen samtidig som likheten mellom inngangs- og utgangsbildene reduseres. Derfor er høyere verdier nyttige for betydelige modifikasjoner.

Denoising styrke

Del 6. Hva er Clip Skip Stabil diffusion og hvordan du bruker

CLIP er kjent som et innebyggingslag som brukes til å analysere tekster. Strukturen er sammensatt av lag, som per individ er mer spesifikk enn den forrige. For eksempel kan lag 1 være "Person", og lag 2 vil være "kvinne" eller "mann". Deretter vil neste lag være "foreldre, far, mann, gutt, etc."

Hensikten er å få den nøyaktige tekstmodellen, som stopper den lange listen med lag, og til slutt blander mer data og gir deg mer enn du trenger. Det beste eksemplet på dette er 1,5-modellen med 12 ranker dyp. Hvert lag har tekstinnbygging og kan blandes med andre detaljer, som størrelse, farge osv. CLIP hopper over tekstromdimensjonen og kommer til nøyaktig utdata. Slik bruker du det:

Trinn 1.Fra sjekkpunktet for stabil diffusjon, gå til innstillinger og velg "Stabil spredning".

Steg 2.Rull ned og gå til "Hopp over klipp". Sett den til ønsket verdi, og rull deretter opp for å klikke på "Bruk innstillinger"-knappen.

Hopp over klipp

Del 7. Hva er stabil diffusjonsgenererende hastighet og hvordan akselereres

Når du ser på hastigheten til en AI-generator, vil du forvente at det vil ta litt tid å vise resultater. Stabil diffusjon har imidlertid en genereringshastighet på 10 sekunder. Dette er bare for generell bruk av nettverktøyet, men tiden kan fortsatt kutte opptil fire sekunder når du abonnerer på primær- eller standardplanen. Dette er en måte å akselerere modellens hastighet, men resultatets nøyaktighet går bort fra inngangen Stabil diffusjonsmelding. Dessuten er verktøyet gratis med bare noen få funksjonsbegrensninger fra prisplanene. Så hvordan akselererer du genereringshastigheten mens du ikke betaler?

Det eneste kravet for akselerasjon er et Nvidia-kort, som kan være i 4000-, 3000-, 2000- og til og med 1000-serien. Du kan bruke Lovelace, Ampere, Pascal Turing, etc. For et alternativ, bruk en lavere presisjon som float16 og kjør færre slutningstrinn.

Bonustips: Endre størrelsen på stabile diffusjonsresultater

Etter å ha lært om AI-modellen, er det en ting til du må vite: filstørrelsen er en enorm faktor for bilder, og de kan spise opp lagringsplassen din på grunn av større filstørrelser. Men med AnyRec gratis bildekompressor på nett, vil det være praktisk å komprimere bildene. Det elektroniske verktøyet har den nyeste AI-teknologien for å optimalisere opplastingene samtidig som filstørrelsen reduseres. Ettersom den genererer mindre filer, kan brukeren importere flere bilder fra den lokale mappen, og kompressoren vil laste dem umiddelbart.

Del 8. Vanlige spørsmål om stabil diffusjon

Konklusjon

Dette innlegget forklarer hva er stabil diffusjon og hvordan det fungerer med Clip Skip, VAE, DreamBooth, CFG Scale og Denoising Strength. På den annen side kan du bruke AnyRec Free Image Compressor Online for å redusere filstørrelsene til de genererte bildene. Det er helt gratis og ubegrenset å bruke!

Relaterte artikler: