การแพร่กระจายที่เสถียรคืออะไรและวิธีเพิ่มพลังสูงสุด

เลียม มิลเลอร์
ก.ค. 26 กันยายน 2566 / อัปเดตโดย เลียม มิลเลอร์ ถึง เครื่องมือเอไอ

ความก้าวหน้าของปัญญาประดิษฐ์กำลังเข้าควบคุมบางโปรแกรมที่จะช่วยสร้างภาพ คุณอาจเห็นเครื่องมือ Stable Diffusion แต่ การแพร่กระจายที่เสถียรคืออะไร? นี่คือเครื่องมือสร้างภาพ จุดประสงค์หลักคือเพื่อสร้างรูปภาพโดยใช้ข้อความแจ้ง และผู้คนพบว่าการสร้างตัวละครและองค์ประกอบต่างๆ เข้าด้วยกันเป็นเรื่องที่น่าสนใจและสนุกสนาน เรียนรู้เพิ่มเติมเกี่ยวกับ Stable Diffusion คืออะไร และดูวิธีการทำงาน

ส่วนที่ 1: การแพร่กระจายที่เสถียรคืออะไร

เป็นโมเดลการเรียนรู้เชิงลึกจากข้อความเป็นรูปภาพ การสร้างรูปภาพโดยการป้อนข้อความแจ้งให้อธิบายหัวข้อหลัก ตัวอย่างเช่น คุณสามารถใส่ 'cat' แล้วเครื่องมือจะสร้างรูปภาพของแมว อย่างไรก็ตาม มันสามารถเน้นหรือเพิ่มรายละเอียดเพิ่มเติมได้เมื่อคุณป้อนพร้อมท์ที่ซับซ้อน โครงข่ายประสาทเทียมแบบกำเนิดกลายเป็นมากกว่าเครื่องมือ AI เนื่องจากมีเงื่อนไขกับงานอื่นๆ เช่น การทาสีภายนอก การลงสี และการแปลภาพเป็นภาพผ่านข้อความแจ้ง

Stable Diffusion ได้รับการพัฒนาและได้รับทุนจาก Stability AI แต่กลุ่ม CompVis ที่ Ludwig Maximilian University of Munich มีใบอนุญาตทางเทคนิคสำหรับโมเดลการแพร่กระจายแฝง นอกจากนี้ การพัฒนานำโดยนักวิจัย Patrick Esser และ Robin Rombach โดยได้รับข้อมูลการฝึกอบรมเพิ่มเติมจากองค์กรไม่แสวงหากำไรในเยอรมนีในฐานะผู้สนับสนุนโครงการ ต่อมาในเดือนตุลาคม 2022 บริษัทระดมทุนได้ $101 ล้านดอลลาร์สหรัฐ หลังจากเปิดตัวครั้งแรกในเดือนสิงหาคม 2022

การแพร่กระจายที่เสถียร

ส่วนที่ 2 VAE Stable Diffusion คืออะไร

คุณอาจพบสิ่งนี้เมื่อใช้เครื่องกำเนิดภาพถ่าย AI และ VAE ก็มีประโยชน์สำหรับเครื่องมือนี้ VAE ย่อมาจาก Variable Auto Encoder ซึ่งใช้ในการปรับแต่งตัวถอดรหัสเพื่อให้ได้รายละเอียดที่ดีขึ้น เป็นส่วนเสริมของเครื่องมือ AI เนื่องจากสามารถช่วยให้ได้ภาพที่คมชัดและสีสันที่สดใสและปรับปรุงการสร้างมือและใบหน้า

แน่นอนว่า VAE เป็นมากกว่าแค่ Stable Diffusion เพราะทุกรุ่นมี VAE ในตัวเพื่อดูรายละเอียด การเปรียบเทียบจะเป็นผลลัพธ์ระหว่างแต่ละรุ่นและจะเป็นอย่างไรเมื่อคุณบีบอัดรูปภาพ นอกจากนี้ยังมีไฟล์ VAE แยกต่างหากที่คุณสามารถดาวน์โหลดลงในอุปกรณ์ของคุณได้ หากต้องการลองใช้ตัวถอดรหัสหนึ่งตัว คุณสามารถใช้สิ่งต่อไปนี้:

ไฟล์ Vae

ส่วนที่ 3 Dreambooth คืออะไรในการแพร่กระจายที่เสถียรและวิธีการติดตั้ง

DreamBooth เป็นโมเดลการเรียนรู้เชิงลึกที่ปรับแต่งรูปภาพที่สร้างขึ้น โดยเฉพาะหัวข้อเฉพาะ ในตอนแรก รูปแบบนี้ใช้โมเดลการแปลงข้อความเป็นรูปภาพของ Imagen แต่น่าเสียดายที่ Imagen ไม่มีน้ำหนักที่ได้รับการฝึกอบรมล่วงหน้า เช่น Stable Diffusion หรือเครื่องมือ AI อื่นๆ DreamBooth ได้รับการพัฒนาเพิ่มเติมโดยนักวิจัยของ Google และเพื่อนร่วมงานบางคนจากมหาวิทยาลัยบอสตันในปี 2022

งานของโมเดลนี้คือการแก้ไขและปรับแต่งภาพถ่ายที่สร้างขึ้นอย่างละเอียด แต่ยังสามารถแสดงตัวแบบที่คุ้นเคยได้ในทุกสถานที่และสถานการณ์ เนื่องจากโมเดลการแพร่กระจายที่ได้รับการฝึกล่วงหน้าส่วนใหญ่ยังคงต้องได้รับการปรับปรุงในหมวดหมู่นี้ DreamBooth จะส่งเสริมการฝึกอบรมสำหรับโมเดลการแพร่กระจาย ด้วยภาพเพียงห้าภาพ การปรับเปลี่ยนภาพสามารถทำได้ด้วยแพลตฟอร์มเช่น Stable Diffusion คำแนะนำสั้นๆ เกี่ยวกับวิธีใช้ DreamBooth บน Stable Diffusion:

ขั้นตอนที่ 1.ขั้นแรก คุณต้องมีภาพการฝึกอบรมของหัวข้อใดเรื่องหนึ่งเพื่อใช้บน DreamBooth ตรวจสอบให้แน่ใจว่าวัตถุมีภาพที่ถ่ายไว้ ดำเนินการปรับขนาดรูปภาพเป็น 512x512 พิกเซล

ขั้นตอนที่ 2.เปิด DreamBooth แล้วเข้าไป พร้อมท์อินสแตนซ์ และ พร้อมท์ชั้นเรียน. ดำเนินการเปลี่ยนแปลงโดยคลิกที่ เล่น ปุ่มจากส่วนด้านซ้ายของอินเทอร์เฟซ

พรอมต์อินสแตนซ์ Dreambooth

ขั้นตอนที่ 3เมื่อเสร็จแล้ว ให้ทดสอบ แล้วคุณจะได้รับตัวอย่างบางส่วนที่สร้างโดยแบบจำลอง คุณสามารถดาวน์โหลดไฟล์จุดตรวจโมเดลได้จาก Google Drive ของคุณและติดตั้งใน GUI

การทดสอบดรีมบูธ

ส่วนที่ 4 CFG Scale ในการแพร่กระจายที่เสถียรคืออะไร

คุณสามารถค้นหาค่านี้ที่ตั้งไว้ภายในโมเดลตัวสร้างภาพ และเนื่องจากจำเป็น คุณจึงต้องเรียนรู้ว่าอะไรคุ้มค่าที่จะปรับภาพให้เหมาะสม Classifier Free Guidance Scale ช่วยให้ผู้ใช้สามารถปรับความใกล้เคียงของผลลัพธ์จากรูปภาพอินพุตหรือข้อความแจ้งที่ใช้ ตัวอย่างเช่น เมื่อคุณปรับ CFG Scale ให้เป็นค่าที่ดีเยี่ยมยิ่งขึ้น ผลลัพธ์ที่ได้จะคล้ายกับรูปภาพอินพุตมากขึ้น แต่คาดว่าจะบิดเบี้ยว ในทางกลับกัน สเกล CGF ที่ต่ำกว่าจะทำให้เอาท์พุตอยู่ห่างจากพรอมต์หลักในขณะที่ให้คุณภาพที่ดีขึ้น

แต่เมื่อใดที่คุณจำเป็นต้องใช้สเกล CFG กับ Stable Diffusion คำตอบนั้นง่ายมาก: เครื่องสร้างภาพ AI ไม่สามารถสร้างสิ่งที่ไม่อยู่ในความรู้ได้ ดังนั้น CFG Scale จะช่วยให้คุณเชื่อมโยงหลาย ๆ วิชาเข้าด้วยกันโดยการเพิ่มคุณค่าของมัน ข้อเสียเปรียบเพียงอย่างเดียวคือค่าใช้จ่ายของคุณภาพของภาพซึ่งเป็นสัดส่วนกับข้อความแจ้ง หากสนใจเครื่องมือนี้ คุณต้องฝึกปรับเทียบเครื่องชั่งเพื่อหาจุดที่เหมาะสม

มาตราส่วน CFG

ส่วนที่ 5 อะไรคือ Denoising Strength Stable Diffusion

วิธีนี้จะเริ่มต้นกระบวนการที่เพิ่มสัญญาณรบกวนให้กับภาพที่นำเข้า มันเป็นเพียงก ตัวอัปสเกลเลอร์การแพร่กระจายที่เสถียร. นี่เป็นค่าที่ยอดเยี่ยมสำหรับ Stable Diffusion เนื่องจากสามารถผ่านภาพต่อภาพ (img2img) หรือ InPaint ปริมาณสัญญาณรบกวนจะถูกควบคุมโดย Denoise Strength ตั้งแต่ขั้นต่ำ 0 ถึงสูงสุด 1 การใส่ค่าเป็น 0 จะลดสัญญาณรบกวนให้เหลือเพียงไม่มี ทำให้ภาพที่คล้ายกับภาพที่นำเข้า มิฉะนั้นค่า 1 จะแทนที่อินพุตด้วยเสียง

คุณสามารถใช้ Denoise Strength เป็นวิธีปฏิบัติในการกำหนดความใกล้เคียงของเอาต์พุตโดยอิงจากอิทธิพลของรูปภาพอินพุต ตัวอย่างที่ดีคือค่า Denoising Strength ที่ต่ำกว่า ซึ่งทำให้รูปภาพที่สร้างขึ้นดูใกล้กับอินพุตมากขึ้น ซึ่งเป็นการตั้งค่าที่เหมาะสำหรับการแก้ไขเล็กน้อย ในทางกลับกัน ค่า Denoising Strength ที่สูงกว่ามีแนวโน้มที่จะเพิ่มความแปรผันในขณะที่ลดความคล้ายคลึงกันของรูปภาพอินพุตและเอาต์พุต ดังนั้นค่าที่สูงกว่าจึงมีประโยชน์สำหรับการแก้ไขที่สำคัญ

ทำลายความแข็งแกร่ง

ส่วนที่ 6 Clip Skip Stable Diffusion คืออะไรและใช้งานอย่างไร

CLIP เรียกว่าเลเยอร์การฝังที่ใช้สำหรับการวิเคราะห์ข้อความ โครงสร้างประกอบด้วยชั้นต่างๆ ซึ่งแต่ละชั้นมีความเฉพาะเจาะจงมากกว่าชั้นก่อนหน้า ตัวอย่างเช่น เลเยอร์ 1 อาจเป็น "บุคคล" และเลเยอร์ 2 จะเป็น "เพศหญิง" หรือ "ชาย" จากนั้นเลเยอร์ถัดไปจะเป็น "พ่อแม่ พ่อ ผู้ชาย เด็กผู้ชาย ฯลฯ"

จุดประสงค์คือเพื่อให้ได้โมเดลข้อความที่แม่นยำ ซึ่งจะหยุดรายการเลเยอร์ที่ยาว ในที่สุดก็ผสมข้อมูลมากขึ้นและให้มากกว่าที่คุณต้องการ ตัวอย่างที่ดีที่สุดของสิ่งนี้คือรุ่น 1.5 ที่มีความลึก 12 ระดับ แต่ละเลเยอร์มีการฝังข้อความและสามารถผสมกับรายละเอียดอื่นๆ ได้ เช่น ขนาด สี ฯลฯ CLIP จะข้ามมิติพื้นที่ข้อความและไปยังเอาต์พุตที่แน่นอน นี่คือวิธีการใช้งาน:

ขั้นตอนที่ 1.จากจุดตรวจสอบการแพร่กระจายที่เสถียร ให้ไปที่การตั้งค่าและเลือก "การแพร่กระจายที่เสถียร"

ขั้นตอนที่ 2.เลื่อนลงและไปที่ "ข้ามคลิป" โปรดตั้งค่าให้เป็นค่าที่ต้องการ จากนั้นเลื่อนขึ้นเพื่อคลิกปุ่ม "ใช้การตั้งค่า"

คลิปข้าม

ตอนที่ 7: ความเร็วในการสร้างการแพร่กระจายที่เสถียรคืออะไรและจะเร่งความเร็วได้อย่างไร

เมื่อคุณดูความเร็วของเครื่องกำเนิด AI คุณจะคาดหวังว่าจะใช้เวลาสักครู่ในการแสดงผล อย่างไรก็ตาม Stable Diffusion มีความเร็วในการสร้าง 10 วินาที นี่เป็นเพียงการใช้งานทั่วไปของเครื่องมือออนไลน์ แต่เวลายังสามารถลดลงได้ถึงสี่วินาทีเมื่อสมัครแผนหลักหรือแผนมาตรฐาน นี่เป็นวิธีหนึ่งในการเร่งความเร็วของโมเดล แต่ความแม่นยำของผลลัพธ์จะเบี่ยงเบนไปจากอินพุต การแจ้งเตือนการแพร่กระจายที่เสถียร. นอกจากนี้ เครื่องมือนี้ยังใช้งานได้ฟรีโดยมีข้อจำกัดด้านฟีเจอร์เพียงเล็กน้อยจากแผนราคา ดังนั้นคุณจะเร่งความเร็วในการสร้างในขณะที่ไม่จ่ายเงินได้อย่างไร?

ข้อกำหนดเพียงอย่างเดียวสำหรับการเร่งความเร็วคือการ์ด Nvidia ซึ่งอาจอยู่ในซีรีส์ 4000, 3000, 2000 และแม้แต่ 1,000 คุณสามารถใช้ Lovelace, Ampere, Pascal Turing ฯลฯ สำหรับทางเลือกอื่น ให้ใช้ความแม่นยำที่ต่ำกว่า เช่น float16 และรันขั้นตอนการอนุมานน้อยลง

เคล็ดลับโบนัส: เปลี่ยนขนาดผลลัพธ์การแพร่กระจายที่เสถียร

หลังจากเรียนรู้เกี่ยวกับโมเดล AI แล้ว มีอีกสิ่งหนึ่งที่คุณต้องรู้: ขนาดไฟล์เป็นปัจจัยสำคัญสำหรับรูปภาพ และอาจกินพื้นที่เก็บข้อมูลของคุณเนื่องจากขนาดไฟล์ที่ใหญ่ขึ้น แต่ด้วย โปรแกรมบีบอัดรูปภาพ AnyRec ออนไลน์ฟรี, การบีบอัดภาพจะสะดวก เครื่องมือออนไลน์มีเทคโนโลยี AI ล่าสุดเพื่อช่วยเพิ่มประสิทธิภาพการอัปโหลดในขณะที่ลดขนาดไฟล์ เนื่องจากสร้างไฟล์ขนาดเล็กลง ผู้ใช้สามารถนำเข้ารูปภาพเพิ่มเติมจากโฟลเดอร์ในเครื่องได้ และคอมเพรสเซอร์จะโหลดรูปภาพเหล่านั้นทันที

ตอนที่ 8 คำถามที่พบบ่อยเกี่ยวกับการแพร่กระจายที่เสถียร

บทสรุป

โพสต์นี้จะอธิบาย การแพร่กระจายที่เสถียรคืออะไร และวิธีการทำงานร่วมกับ Clip Skip, VAE, DreamBooth, CFG Scale และ Denoising Strength ในทางกลับกัน คุณสามารถใช้ AnyRec Free Image Compressor Online เพื่อลดขนาดไฟล์ของรูปภาพที่สร้างขึ้นได้ ใช้งานได้ฟรีและไม่จำกัด!

บทความที่เกี่ยวข้อง: