Τι είναι η σταθερή διάχυση και πώς να μεγιστοποιήσετε τη δύναμή της

Λίαμ Μίλερ
Ιούλ 26, 2023 / Ενημερώθηκε από Λίαμ Μίλερ προς το Εργαλεία AI

Η πρόοδος της Τεχνητής Νοημοσύνης καταλαμβάνει τώρα ορισμένα προγράμματα που θα βοηθήσουν στη δημιουργία εικόνων. Μπορείτε να δείτε το εργαλείο Stable Diffusion. Αλλά τι είναι η Σταθερή Διάχυση? Αυτό είναι ένα εργαλείο δημιουργίας εικόνας. Ο πρωταρχικός του σκοπός είναι να δημιουργεί εικόνες χρησιμοποιώντας προτροπές και οι άνθρωποι βρίσκουν ελκυστικό και διασκεδαστικό να δημιουργούν διάφορους χαρακτήρες και στοιχεία μαζί. Μάθετε περισσότερα για το τι είναι το Stable Diffusion και μάθετε πώς λειτουργεί.

Μέρος 1: Τι είναι η σταθερή διάχυση

Είναι ένα μοντέλο σε βάθος μάθησης, κείμενο σε εικόνα, που δημιουργεί εικόνες εισάγοντας προτροπές για την περιγραφή του κύριου θέματος. Για παράδειγμα, μπορείτε να βάλετε "γάτα" και το εργαλείο θα δημιουργήσει μια εικόνα μιας γάτας. Ωστόσο, μπορεί να τονίσει περαιτέρω ή να προσθέσει περισσότερες λεπτομέρειες όταν εισάγετε σύνθετα μηνύματα. Το γενετικό νευρωνικό δίκτυο γίνεται κάτι περισσότερο από ένα εργαλείο τεχνητής νοημοσύνης, καθώς ρυθμίζεται επίσης με άλλες εργασίες, όπως το outpainting, το inpainting και τη μετάφραση εικόνας σε εικόνα μέσω μηνυμάτων κειμένου.

Το Stable Diffusion αναπτύχθηκε και χρηματοδοτήθηκε από το Stability AI, αλλά ο όμιλος CompVis στο Πανεπιστήμιο Ludwig Maximilian του Μονάχου έχει την τεχνική άδεια για το μοντέλο λανθάνουσας διάχυσης. Επιπλέον, η ανάπτυξη έγινε από τους ερευνητές Patrick Esser και Robin Rombach, αποκτώντας περισσότερα εκπαιδευτικά δεδομένα από μη κερδοσκοπικούς οργανισμούς στη Γερμανία ως υποστηρικτές των έργων. Αργότερα, τον Οκτώβριο του 2022, η εταιρεία συγκέντρωσε US$101 εκατομμύρια, αφού την παρουσίασε αρχικά τον Αύγουστο του 2022.

Σταθερή Διάχυση

Μέρος 2. Τι είναι η σταθερή διάχυση VAE

Μπορεί να το έχετε αντιμετωπίσει όταν χρησιμοποιείτε τη γεννήτρια φωτογραφιών AI και το VAE είναι χρήσιμο για το εργαλείο. Το VAE σημαίνει Μεταβλητός Αυτόματος Κωδικοποιητής, που χρησιμοποιείται για τον ακριβή συντονισμό του αποκωδικοποιητή ώστε να ζωγραφίζει καλύτερες λεπτομέρειες. Είναι μια προσθήκη στο εργαλείο AI, καθώς μπορεί να βοηθήσει στη λήψη πιο ευκρινών εικόνων και ζωντανών χρωμάτων και στη βελτίωση της δημιουργίας χεριών και προσώπων.

Φυσικά, το VAE είναι κάτι περισσότερο από σταθερή διάχυση, επειδή όλα τα μοντέλα έχουν ενσωματωμένα VAE για την επεξεργασία των λεπτομερειών. Η σύγκριση θα είναι το αποτέλεσμα μεταξύ κάθε μοντέλου και το πώς θα βγουν όταν συμπιέζετε τις εικόνες. Επιπλέον, υπάρχουν ξεχωριστά αρχεία VAE που μπορείτε να κατεβάσετε στη συσκευή σας. Για να δοκιμάσετε έναν αποκωδικοποιητή, μπορείτε να χρησιμοποιήσετε τα εξής:

Αρχεία Vae

Μέρος 3. Τι είναι το Dreambooth στο Stable Diffusion και πώς να το εγκαταστήσετε

Το DreamBooth είναι ένα μοντέλο γενιάς βαθιάς μάθησης που βελτιστοποιεί τις εικόνες που δημιουργούνται, ειδικά το συγκεκριμένο θέμα. Αρχικά, βασίζεται στο μοντέλο κειμένου σε εικόνα της Imagen, αλλά δυστυχώς, το Imagen δεν έχει τα προεκπαιδευμένα βάρη όπως το Stable Diffusion ή άλλα εργαλεία τεχνητής νοημοσύνης. Το DreamBooth αναπτύχθηκε περαιτέρω από τους Ερευνητές της Google και ορισμένους συναδέλφους του από το Πανεπιστήμιο της Βοστώνης το 2022.

Η δουλειά του μοντέλου είναι να τροποποιεί και να τελειοποιεί τις φωτογραφίες που δημιουργούνται, αλλά είναι επίσης ικανό να αποδίδει οικεία θέματα σε οποιαδήποτε ρύθμιση και κατάσταση. Δεδομένου ότι τα περισσότερα προ-εκπαιδευμένα μοντέλα διάχυσης χρειάζονται ακόμα βελτίωση σε αυτήν την κατηγορία, το DreamBooth θα ενισχύσει την εκπαίδευση για τα μοντέλα διάχυσης. Με μόλις πέντε εικόνες, η τροποποίηση εικόνας μπορεί να γίνει με πλατφόρμες όπως το Stable Diffusion. Ακολουθεί μια σύντομη οδηγία σχετικά με τον τρόπο χρήσης του DreamBooth σε Stable Diffusion:

Βήμα 1.Αρχικά, πρέπει να έχετε προπονητικές εικόνες ενός θέματος για χρήση στο DreamBooth. Βεβαιωθείτε ότι το θέμα έχει τραβήξει φωτογραφίες. Συνεχίστε να αλλάξετε το μέγεθος των εικόνων σε 512x512 pixel.

Βήμα 2.Ανοίξτε το DreamBooth και μπείτε Προτροπή για παράδειγμα και Προτροπή τάξης. Επεξεργαστείτε τις αλλαγές κάνοντας κλικ στο Παίζω κουμπί από το αριστερό μέρος της διεπαφής.

Προτροπή παρουσίας Dreambooth

Βήμα 3.Όταν τελειώσετε, δοκιμάστε το και θα λάβετε μερικά δείγματα που δημιουργούνται από το μοντέλο. Μπορείτε να κάνετε λήψη του αρχείου σημείου ελέγχου μοντέλου από το Google Drive και να το εγκαταστήσετε στο GUI.

Δοκιμή Dreambooth

Μέρος 4. Τι είναι η κλίμακα CFG σε σταθερή διάχυση

Μπορείτε να βρείτε Αυτή η τιμή που έχει οριστεί στο μοντέλο της γεννήτριας φωτογραφιών. Και επειδή είναι απαραίτητο, πρέπει να μάθετε τι αξίζει να βελτιστοποιήσετε τις εικόνες. Το Classifier Free Guidance Scale επιτρέπει στους χρήστες να προσαρμόσουν την εγγύτητα του αποτελέσματος από την εικόνα εισόδου ή τα μηνύματα που χρησιμοποιούνται. Για παράδειγμα, όταν προσαρμόζετε την κλίμακα CFG σε μια πιο εξαιρετική τιμή, η έξοδος θα μοιάζει περισσότερο με την εικόνα εισόδου, αλλά αναμένεται να παραμορφωθεί. Από την άλλη πλευρά, μια χαμηλότερη κλίμακα CGF θα απομακρύνει την έξοδο από την κύρια προτροπή ενώ θα παράγει καλύτερη ποιότητα.

Πότε όμως χρειάζεται να χρησιμοποιήσετε την κλίμακα CFG στη Σταθερή Διάχυση; Η απάντηση είναι απλή: η γεννήτρια φωτογραφιών AI δεν μπορεί να δημιουργήσει κάτι που δεν είναι στα γνωστά της, επομένως η κλίμακα CFG θα σας βοηθήσει να συνδέσετε πολλά θέματα αυξάνοντας την τιμή της. Το μόνο μειονέκτημα είναι το κόστος της ποιότητας της εικόνας, το οποίο είναι ανάλογο με τις προτροπές. Εάν ενδιαφέρεστε για αυτό το εργαλείο, πρέπει να εξασκηθείτε στη βαθμονόμηση της ζυγαριάς για να βρείτε το γλυκό σημείο.

Κλίμακα CFG

Μέρος 5. Τι είναι η σταθερή διάχυση της αντοχής από θόρυβο

Αυτή η μέθοδος ξεκινά μια διαδικασία που προσθέτει θόρυβο στις εικόνες εισόδου. Είναι απλώς ένα Stable Diffusion upscaler. Είναι μια εξαιρετική τιμή για τη σταθερή διάχυση, καθώς μπορεί να περάσει από εικόνα σε εικόνα (img2img) ή InPaint. Η ποσότητα θορύβου ελέγχεται από την ισχύ Denoise, από το ελάχιστο 0 έως το μέγιστο 1. Η τοποθέτηση της τιμής στο 0 θα μειώσει τον θόρυβο σε κανένα, δημιουργώντας παρόμοια εικόνα με την εικόνα εισόδου. Διαφορετικά, η τιμή 1 θα αντικαταστήσει την είσοδο με θόρυβο.

Μπορείτε να χρησιμοποιήσετε το Denoise Strength ως πρακτική μέθοδο για να προσδιορίσετε την εγγύτητα της εξόδου με την επίδραση των εικόνων εισόδου. Ένα εξαιρετικό παράδειγμα είναι η χαμηλότερη ισχύς αποθορύφωσης που κάνει τις παραγόμενες εικόνες να φαίνονται πιο κοντά στην είσοδο, μια ιδανική ρύθμιση για μικρές τροποποιήσεις. Από την άλλη πλευρά, η Υψηλότερη ισχύς αποθορυβοποίησης πιθανότατα θα αυξήσει τη διακύμανση, ενώ θα μειώσει την ομοιότητα των εικόνων εισόδου και εξόδου. Επομένως, οι υψηλότερες τιμές είναι χρήσιμες για σημαντικές τροποποιήσεις.

Δύναμη αποθορυβοποίησης

Μέρος 6. Τι είναι το Clip Skip Stable Diffusion και πώς να το χρησιμοποιήσετε

Το CLIP είναι γνωστό ως στρώμα ενσωμάτωσης που χρησιμοποιείται για την ανάλυση κειμένων. Η δομή του αποτελείται από στρώματα, τα οποία ανά άτομο είναι πιο συγκεκριμένα από το προηγούμενο. Για παράδειγμα, το επίπεδο 1 μπορεί να είναι "Person" και το Layer 2 θα είναι "θηλυκό" ή "αρσενικό". Στη συνέχεια, το επόμενο επίπεδο θα είναι «γονέας, πατέρας, άντρας, αγόρι, κ.λπ.».

Ο σκοπός του είναι να αποκτήσει το ακριβές μοντέλο κειμένου, το οποίο σταματά τη μακρά λίστα επιπέδων, αναμειγνύοντας τελικά περισσότερα δεδομένα και δίνοντάς σας περισσότερα από όσα χρειάζεστε. Το καλύτερο παράδειγμα αυτού είναι το μοντέλο 1.5 με 12 βαθιές θέσεις. Κάθε επίπεδο έχει ενσωμάτωση κειμένου και μπορεί να αναμιχθεί με άλλες λεπτομέρειες, όπως μέγεθος, χρώμα, κ.λπ. Δείτε πώς να το χρησιμοποιήσετε:

Βήμα 1.Από το Stable Diffusion Checkpoint, μεταβείτε στις ρυθμίσεις και επιλέξτε "Stable Diffusion".

Βήμα 2.Κάντε κύλιση προς τα κάτω και μεταβείτε στην "Παράλειψη κλιπ". Ρυθμίστε το στην επιθυμητή τιμή και, στη συνέχεια, κάντε κύλιση προς τα επάνω για να κάνετε κλικ στο κουμπί "Εφαρμογή ρυθμίσεων".

Παράλειψη κλιπ

Μέρος 7. Τι είναι η σταθερή ταχύτητα δημιουργίας διάχυσης και πώς να επιταχυνθεί

Όταν κοιτάζετε την ταχύτητα μιας γεννήτριας AI, θα περιμένετε ότι θα χρειαστεί λίγος χρόνος για να εμφανιστούν αποτελέσματα. Ωστόσο, το Stable Diffusion έχει ταχύτητα παραγωγής 10 δευτερολέπτων. Αυτό είναι μόνο για τη γενική χρήση του διαδικτυακού εργαλείου, αλλά ο χρόνος μπορεί να μειωθεί έως και τέσσερα δευτερόλεπτα όταν εγγραφείτε στο κύριο ή το τυπικό πρόγραμμα. Αυτός είναι ένας τρόπος για να επιταχυνθεί η ταχύτητα του μοντέλου, αλλά η ακρίβεια του αποτελέσματος απομακρύνεται από την είσοδο Προτροπές Stable Diffusion. Επιπλέον, το εργαλείο είναι δωρεάν με μερικούς μόνο περιορισμούς χαρακτηριστικών από τα προγράμματα με τιμή. Λοιπόν, πώς επιταχύνετε την ταχύτητα παραγωγής ενώ δεν πληρώνετε;

Η μόνη απαίτηση για επιτάχυνση είναι μια κάρτα Nvidia, η οποία μπορεί να είναι στις σειρές 4000, 3000, 2000, ακόμη και 1000. Μπορείτε να χρησιμοποιήσετε Lovelace, Ampere, Pascal Turing, κ.λπ. Για εναλλακτική, χρησιμοποιήστε χαμηλότερη ακρίβεια όπως το float16 και εκτελέστε λιγότερα βήματα συμπερασμάτων.

Συμβουλές μπόνους: Αλλάξτε το μέγεθος των αποτελεσμάτων σταθερής διάχυσης

Αφού μάθετε για το μοντέλο AI, υπάρχει ένα ακόμη πράγμα που πρέπει να γνωρίζετε: το μέγεθος του αρχείου είναι ένας τεράστιος παράγοντας για τις εικόνες και μπορούν να καταναλώσουν τον αποθηκευτικό σας χώρο λόγω των μεγαλύτερων μεγεθών αρχείων. Αλλά με AnyRec Δωρεάν Συμπιεστής Εικόνας Online, η συμπίεση των φωτογραφιών θα είναι βολική. Το διαδικτυακό εργαλείο διαθέτει την πιο πρόσφατη τεχνολογία AI που βοηθά στη βελτιστοποίηση των μεταφορτώσεων μειώνοντας ταυτόχρονα το μέγεθος του αρχείου. Καθώς δημιουργεί μικρότερα αρχεία, ο χρήστης μπορεί να εισάγει περισσότερες εικόνες από τον τοπικό φάκελο και ο συμπιεστής θα τις φορτώσει αμέσως.

Μέρος 8. Συχνές ερωτήσεις σχετικά με τη σταθερή διάχυση

συμπέρασμα

Αυτή η ανάρτηση εξηγεί τι είναι η Σταθερή Διάχυση και πώς λειτουργεί με Clip Skip, VAE, DreamBooth, CFG Scale και Denoising Strength. Από την άλλη πλευρά, μπορείτε να χρησιμοποιήσετε το AnyRec Free Image Compressor Online για να μειώσετε τα μεγέθη αρχείων των εικόνων που δημιουργούνται. Είναι εντελώς δωρεάν και απεριόριστη στη χρήση!

Σχετικά Άρθρα: