Mikä on vakaa diffuusio ja kuinka maksimoida sen teho

Liam Miller
heinä 26, 2023 / Päivittäjä Liam Miller kohtaan AI-työkalut

Tekoälyn edistys on nyt vallannut joitakin ohjelmia, jotka auttavat luomaan kuvia. Saatat nähdä Stable Diffusion -työkalun. Mutta mikä on stabiili diffuusio? Tämä on kuvien luontityökalu. Sen ensisijainen tarkoitus on luoda kuvia kehotteiden avulla, ja ihmisten mielestä on houkuttelevaa ja hauskaa luoda erilaisia hahmoja ja elementtejä yhdessä. Lue lisää siitä, mikä on vakaa diffuusio ja miten se toimii.

Osa 1: Mikä on vakaa diffuusio

Se on syväoppiva, tekstistä kuvaksi -malli, joka luo kuvia syöttämällä kehotteita kuvaamaan pääaihetta. Voit esimerkiksi laittaa sanan "kissa", jolloin työkalu luo kuvan kissasta. Se voi kuitenkin korostaa tai lisätä yksityiskohtia, kun syötät monimutkaisia kehotteita. Generatiivisesta hermoverkosta tulee enemmän kuin tekoälytyökalu, koska siihen liittyy myös muita tehtäviä, kuten outpainting, inpainting ja kuvasta kuvaksi -kääntäminen tekstikehotteiden avulla.

Stable Diffusion on kehitetty ja rahoitettu Stability AI:n toimesta, mutta CompVis-ryhmällä Ludwig Maximilianin yliopistossa Münchenissä on tekninen lisenssi piilevää diffuusiomallia varten. Lisäksi kehitystä johtivat tutkijat Patrick Esser ja Robin Rombach, jotka hankkivat lisää koulutusdataa Saksan voittoa tavoittelemattomilta järjestöiltä hankkeiden tukijoina. Myöhemmin lokakuussa 2022 yritys keräsi US$101 miljoonaa sen jälkeen, kun se esiteltiin alun perin elokuussa 2022.

Vakaa diffuusio

Osa 2. Mikä on VAE-stabiili diffuusio

Olet saattanut kohdata tämän käyttäessäsi AI-valokuvageneraattoria, ja VAE on hyödyllinen työkalulle. VAE on lyhenne sanoista Variable Auto Encoder, jota käytetään dekooderin hienosäätämiseen parempien yksityiskohtien maalaamiseksi. Se on lisäys tekoälytyökaluun, koska se voi auttaa saamaan terävämpiä kuvia ja eloisia värejä sekä parantamaan käsien ja kasvojen luomista.

Tietenkin VAE on enemmän kuin vain vakaa diffuusio, koska kaikissa malleissa on sisäänrakennettu VAE yksityiskohtien selvittämiseksi. Vertailu on tulos kunkin mallin välillä ja kuinka niistä tulee, kun pakkaat kuvia. Lisäksi on olemassa erillisiä VAE-tiedostoja, jotka voit ladata laitteellesi. Voit kokeilla yhtä dekooderia seuraavasti:

Vae tiedostot

Osa 3. Mikä Dreambooth on vakaassa diffuusiossa ja kuinka se asennetaan

DreamBooth on syväoppimisen sukupolvimalli, joka hienosäätää luotuja kuvia, erityisesti tiettyä aihetta. Aluksi se perustuu Imagenin tekstistä kuvaksi -malliin, mutta valitettavasti Imagenillä ei ole valmiita painoja, kuten Stable Diffusion tai muita tekoälytyökaluja. Googlen tutkijat ja jotkut Bostonin yliopiston kollegat kehittivät DreamBoothia edelleen vuonna 2022.

Mallin tehtävänä on muokata ja hienosäätää luotuja valokuvia, mutta se pystyy myös renderöimään tuttuja kohteita missä tahansa ympäristössä ja tilanteessa. Koska useimpia esikoulutettuja diffuusiomalleja on vielä parannettava tässä kategoriassa, DreamBooth tehostaa diffuusiomallien koulutusta. Vain viidellä kuvalla kuvia voidaan muokata alustoilla, kuten Stable Diffusion. Tässä on lyhyt opas DreamBoothin käyttöön vakaassa diffuusiossa:

Vaihe 1.Ensinnäkin sinulla on oltava harjoituskuvat yhdestä aiheesta käytettäväksi DreamBoothissa. Varmista, että kohteella on otettu kuvia. Muuta kuvien kokoa 512x512 pikseliksi.

Vaihe 2.Avaa DreamBooth ja mene sisään Instanssikehote ja Luokkakehote. Käsittele muutokset napsauttamalla pelata -painiketta käyttöliittymän vasemmasta reunasta.

Dreamboothin ilmentymäkehote

Vaihe 3.Kun olet valmis, testaa sitä, niin saat muutaman mallin luoman näytteen. Voit ladata mallin tarkistuspistetiedoston Google Drivesta ja asentaa sen graafiseen käyttöliittymään.

Dreamboothin testi

Osa 4. Mikä on CFG-asteikko vakaassa diffuusiossa

Löydät tämän arvon kuvageneraattorin mallista. Ja koska se on välttämätöntä, sinun on opittava, mikä on kuvien optimoinnin arvoista. Classifier Free Guidance Scale -asteikolla käyttäjät voivat säätää tuloksen läheisyyttä syötetyn kuvan tai käytettävien kehotteiden perusteella. Esimerkiksi kun säädät CFG-asteikon erinomaisempaan arvoon, tulos on enemmän samankaltainen kuin tulokuva, mutta sen odotetaan olevan vääristynyt. Toisaalta pienempi CGF-asteikko vie lähdön kauas ensisijaisesta kehotuksesta ja tuottaa parempaa laatua.

Mutta milloin sinun on käytettävä CFG-asteikkoa vakaassa diffuusiossa? Vastaus on yksinkertainen: tekoälykuvageneraattori ei voi luoda jotain, joka ei ole sen tietämyksen piirissä, joten CFG-asteikko auttaa yhdistämään useita aiheita nostamalla sen arvoa. Ainoa haittapuoli on kuvanlaadun hinta, joka on verrannollinen kehotteisiin. Jos olet kiinnostunut tästä työkalusta, sinun on harjoitettava asteikon kalibrointia löytääksesi makean paikan.

CFG-asteikko

Osa 5. Mitä vaimentava voima on vakaa diffuusio

Tämä menetelmä käynnistää prosessin, joka lisää kohinaa tulokuviin. Se on vain a Vakaa diffuusion skaalaus. Se on erinomainen arvo Stable Diffusionille, koska se voi päästä kuvan kuvasta (img2img) tai InPaintista. Kohinan määrää säätelee Denoise Strength, minimiarvosta 0 maksimiarvoon 1. Arvon asettaminen arvoon 0 vähentää kohinan arvoon nollaa, mikä tekee tulokuvan kanssa samanlaisen kuvan. Muussa tapauksessa arvo 1 korvaa tulon kohinalla.

Voit käyttää Denoise Strength -toimintoa käytännöllisenä menetelmänä määrittääksesi lähdön läheisyyden tulokuvien vaikutuksen kanssa. Hyvä esimerkki on pienempi kohinanvaimennusvoimakkuus, joka saa luodut kuvat näyttämään lähemmäs tuloa, mikä on ihanteellinen asetus pienille muokkauksille. Toisaalta korkeampi kohinanvaimennusvoima todennäköisesti lisää vaihtelua ja vähentää samalla tulo- ja lähtökuvien samankaltaisuutta. Siksi suuremmat arvot ovat hyödyllisiä merkittävissä muutoksissa.

Äänenvaimennusvoima

Osa 6. Mikä on Clip Skip -vakaa diffuusio ja kuinka sitä käytetään

CLIP tunnetaan upotuskerroksena, jota käytetään tekstien analysointiin. Sen rakenne koostuu kerroksista, jotka yksilökohtaisesti ovat tarkempia kuin edellinen. Esimerkiksi taso 1 voi olla "henkilö" ja kerros 2 "nainen" tai "mies". Sitten seuraava kerros on "vanhempi, isä, mies, poika jne."

Sen tarkoituksena on saada tarkka tekstimalli, joka pysäyttää pitkän tasoluettelon, sekoittaa lopulta enemmän dataa ja antaa sinulle enemmän kuin tarvitset. Paras esimerkki tästä on 1,5-malli, jossa on 12 riviä syvä. Jokaiseen kerrokseen on upotettu tekstiä, ja se voidaan sekoittaa muihin yksityiskohtiin, kuten kokoon, väriin jne. CLIP ohittaa tekstitilan ulottuvuuden ja saavuttaa tarkan tulosteen. Käytä sitä seuraavasti:

Vaihe 1.Siirry Stable Diffusion Checkpointista asetuksiin ja valitse "Stable Diffusion".

Vaihe 2.Vieritä alas ja siirry kohtaan "Clip Skip". Aseta se haluttuun arvoon ja vieritä sitten ylös ja napsauta "Apply Settings" -painiketta.

Leike Ohita

Osa 7. Mikä on vakaan diffuusion luomisnopeus ja kuinka kiihdyttää

Kun tarkastelet tekoälygeneraattorin nopeutta, odotat, että tulosten näyttäminen kestää jonkin aikaa. Stable Diffusionin generointinopeus on kuitenkin 10 sekuntia. Tämä koskee vain verkkotyökalun yleistä käyttöä, mutta aika voi silti lyhentyä jopa neljään sekuntiin, kun tilaat ensisijaisen tai vakiopaketin. Tämä on yksi tapa nopeuttaa mallin nopeutta, mutta tuloksen tarkkuus ajautuu pois syötteestä Vakaa diffuusio kehottaa. Lisäksi työkalu on ilmainen vain muutamalla ominaisuusrajoituksella hinnoiteltujen suunnitelmien osalta. Joten kuinka nopeuttaa tuottonopeutta maksamatta?

Ainoa vaatimus kiihtyvyydelle on Nvidia-kortti, joka voi olla 4000-, 3000-, 2000- ja jopa 1000-sarjoja. Voit käyttää Lovelacea, Amperea, Pascal Turingia jne. Käytä vaihtoehtona pienempää tarkkuutta, kuten float16, ja suorita vähemmän päättelyvaiheita.

Bonusvinkit: Muuta vakaan diffuusion tulosten kokoa

Kun olet oppinut AI-mallista, sinun on tiedettävä vielä yksi asia: tiedostokoko on suuri tekijä kuville, ja ne voivat kuluttaa tallennustilaasi suurempien tiedostokokojen takia. Mutta kanssa AnyRec ilmainen kuvankompressori verkossa, kuvien pakkaaminen on kätevää. Verkkotyökalussa on uusin tekoälytekniikka, joka auttaa optimoimaan lataukset ja pienentämään tiedostokokoa. Koska se luo pienempiä tiedostoja, käyttäjä voi tuoda lisää kuvia paikallisesta kansiosta, ja kompressori lataa ne välittömästi.

Osa 8. Usein kysytyt kysymykset vakaasta diffuusiosta

Johtopäätös

Tämä viesti selittää mikä on stabiili diffuusio ja kuinka se toimii Clip Skip, VAE, DreamBooth, CFG Scale ja Denoising Strength kanssa. Toisaalta voit käyttää AnyRec Free Image Compressor Online -ohjelmaa pienentämään luotujen kuvien tiedostokokoja. Se on täysin ilmainen ja rajoittamaton käyttö!

Aiheeseen liittyvät artikkelit: