安定拡散とは何か、その力を最大限に発揮するには
人工知能の進歩により、現在、画像の生成に役立ついくつかのプログラムが利用されています。安定拡散ツールが表示される場合があります。しかし 安定拡散とは?これは画像生成ツールです。その主な目的は、プロンプトを使用して画像を生成することであり、人々はさまざまなキャラクターや要素を一緒に生成することに魅力的で楽しいと感じています。安定拡散とは何か、それがどのように機能するかについて詳しく学びましょう。
ガイドリスト
パート 1: 安定拡散とは パート 2: VAE 安定拡散とは何ですか パート 3: 安定拡散に関する Dreambooth とは何かとインストール方法 パート 4: 安定拡散における CFG スケールとは何ですか パート 5: ノイズ除去強度とは 安定した拡散 パート 6: クリップ スキップ安定拡散とは何かとその使用方法 第7回 安定拡散の発生速度と加速方法とは パート 8: 安定拡散に関する FAQパート 1: 安定拡散とは
これは深層学習のテキストから画像へのモデルであり、主要な主題を説明するプロンプトを入力して画像を作成します。たとえば、「猫」と入力すると、ツールは猫の写真を生成します。ただし、複雑なプロンプトを入力する場合は、さらに強調したり、詳細を追加したりすることができます。生成ニューラル ネットワークは、アウトペイント、インペイント、テキスト プロンプトを介した画像間の変換などの他のタスクとも調整されるため、単なる AI ツール以上のものになります。
Stable Diffusion は Stability AI によって開発され、資金提供を受けましたが、ミュンヘンのルートヴィヒ マクシミリアン大学の CompVis グループが潜在拡散モデルの技術ライセンスを持っています。さらに、開発は研究者のパトリック・エッサー氏とロビン・ロンバック氏によって主導され、プロジェクトの支援者としてドイツの非営利団体からより多くのトレーニングデータを入手しました。同社は2022年8月に初めて導入した後、2022年10月後半にUS$1億100万ドルを調達した。
パート 2. VAE 安定拡散とは何ですか
AI 写真ジェネレーターを使用しているときにこの問題に遭遇したことがあるかもしれませんが、VAE はこのツールに役立ちます。 VAE は Variable Auto Encoder の略で、デコーダを微調整して詳細をより良く描画するために使用されます。これは AI ツールへの追加であり、より鮮明な画像と鮮やかな色を取得し、手や顔の生成を改善するのに役立ちます。
もちろん、すべてのモデルには詳細を検討するための VAE が組み込まれているため、VAE は単なる安定拡散を目的としたものではありません。比較は、各モデル間の結果と、画像を圧縮したときにどのようになるかになります。さらに、デバイスにダウンロードできる別の VAE ファイルがあります。 1 つのデコーダを試すには、次を使用できます。
- Orangemix/アニメなら何でもVAE。
- アニメの場合は Kl-f8-anime2 。
- Vae-ft-mse-840000-ema-リアリズムまたは絵画用に剪定されています。
パート 3. 安定拡散に関する Dreambooth とは何かとインストール方法
DreamBooth は、生成された画像、特に特定の被写体を微調整するディープラーニング生成モデルです。当初、これは Imagen のテキストから画像へのモデルに基づいていますが、残念ながら、Imagen には安定拡散や他の AI ツールのような事前トレーニングされた重みがありません。 DreamBooth は、2022 年に Google 研究者とボストン大学の同僚によってさらに開発されました。
モデルの仕事は、生成された写真を変更して微調整することですが、どんな設定や状況でも見慣れた被写体をレンダリングすることもできます。このカテゴリでは、ほとんどの事前トレーニング済み拡散モデルはまだ改善の必要があるため、DreamBooth は拡散モデルのトレーニングを強化します。わずか 5 つの画像で、Stable Diffusion などのプラットフォームを使用して画像の変更を行うことができます。安定した拡散で DreamBooth を使用する方法についての簡単な説明は次のとおりです。
ステップ1。まず、DreamBooth で使用する 1 つの被験者のトレーニング画像が必要です。被写体の写真が撮影されていることを確認してください。画像のサイズを 512x512 ピクセルに変更します。
ステップ2。ドリームブースを開いて入場してください インスタンスプロンプト と クラスプロンプト。をクリックして変更を処理します。 演奏する インターフェースの左側にあるボタンをクリックします。
ステップ 3。完了したらテストすると、モデルによって生成されたいくつかのサンプルが得られます。モデル チェックポイント ファイルを Google ドライブからダウンロードし、GUI にインストールできます。
パート 4. 安定拡散における CFG スケールとは何ですか
この値セットは、フォト ジェネレーター モデル内で見つけることができます。そして、それは不可欠であるため、画像を最適化する価値があるものを学ぶ必要があります。 Classifier Free Guide Scale を使用すると、ユーザーは入力画像または使用されたプロンプトからの結果の近さを調整できます。たとえば、CFG スケールをより優れた値に調整すると、出力は入力イメージにより似たものになりますが、歪むことが予想されます。一方、CGF スケールを低くすると、出力は主プロンプトから遠く離れたものになりますが、品質は向上します。
しかし、安定拡散で CFG スケールを使用する必要があるのはどのような場合でしょうか?答えは簡単です。AI 写真ジェネレーターは、その知識の範囲内にないものを作成することはできません。そのため、CFG スケールは、その値を上げて複数の被写体を結合するのに役立ちます。唯一の欠点は、プロンプトに比例して画質が犠牲になることです。このツールに興味がある場合は、スイート スポットを見つけるためにスケールを調整する練習をする必要があります。
パート 5. ノイズ除去強度とは 安定した拡散
このメソッドは、入力画像にノイズを追加するプロセスを開始します。それはただの 安定拡散アップスケーラー。画像から画像(img2img)またはInPaintを通過できるため、安定した拡散にとって優れた値です。ノイズの量は、最小 0 から最大 1 までのノイズ除去強度によって制御されます。値を 0 に設定すると、ノイズがゼロになり、入力イメージと同様のイメージが作成されます。それ以外の場合、値 1 は入力をノイズに置き換えます。
入力イメージの影響に対する出力の近さを判断する実用的な方法としてノイズ除去強度を使用できます。良い例としては、ノイズ除去強度を低くすると、生成されたイメージが入力に近く見えるようになり、軽微な変更に理想的な設定になります。一方、ノイズ除去強度を高くすると、入力イメージと出力イメージの類似性が低下する一方で、バリエーションが増加する可能性があります。したがって、大幅な変更を行う場合は、値を大きくすると役立ちます。
パート 6. クリップスキップ安定拡散とは何ですか?およびその使用方法
CLIPは、テキストの解析に使用される埋め込みレイヤーとして知られています。その構造は複数の層で構成されており、個人ごとに前の層よりも具体的になっています。たとえば、レイヤー 1 は「人物」、レイヤー 2 は「女性」または「男性」になります。そして次の階層は「親、父、男性、少年など」になります。
その目的は、正確なテキスト モデルを取得することです。これにより、レイヤーの長いリストが停止され、最終的にはより多くのデータが混合され、必要以上のデータが得られます。この最良の例は、深さ 12 ランクの 1.5 モデルです。各レイヤーにはテキストが埋め込まれており、サイズや色などの他の詳細と組み合わせることができます。CLIP はテキストスペースの寸法をスキップし、正確な出力を取得します。使用方法は次のとおりです。
ステップ1。安定拡散チェックポイントから設定に移動し、「安定拡散」を選択します。
ステップ2。下にスクロールして「クリップスキップ」に移動します。希望の値に設定し、上にスクロールして「設定を適用」ボタンをクリックしてください。
第7回 安定拡散の発生速度と加速方法とは
AI ジェネレーターの速度を見ると、結果が表示されるまでに時間がかかることが予想されます。ただし、安定拡散の生成速度は10秒です。これはオンライン ツールの一般的な使用のみを対象としていますが、プライマリ プランまたはスタンダード プランに加入している場合でも、時間は最大 4 秒短縮される可能性があります。これはモデルの速度を加速する 1 つの方法ですが、結果の精度は入力から離れていきます。 安定した拡散プロンプト。さらに、このツールは無料ですが、有料プランの機能制限はいくつかあります。では、支払いを行わずに生成速度を加速するにはどうすればよいでしょうか?
高速化に必要な唯一の要件は、4000、3000、2000、さらには 1000 シリーズの Nvidia カードです。 Lovelace、Ampere、Pascal Turing などを使用できます。代わりに、float16 などのより低い精度を使用し、実行する推論ステップを減らします。
ボーナスヒント: 安定した拡散結果のサイズを変更する
AI モデルについて学んだ後、知っておくべきことがもう 1 つあります。それは、ファイル サイズは画像にとって大きな要素であり、ファイル サイズが大きいため、ストレージ スペースを消費する可能性があります。しかし、 AnyRec 無料の画像圧縮機オンライン, 写真を圧縮すると便利です。このオンライン ツールには、ファイル サイズを削減しながらアップロードを最適化する最新の AI テクノロジーが搭載されています。生成されるファイルが小さいため、ユーザーはローカル フォルダーからより多くの画像をインポートでき、コンプレッサーはそれらを即座に読み込みます。
- Stable Diffusion で生成された画像を高品質で圧縮します。
- 圧縮画像にはウォーターマークを適用しません。
- JPEG、GIF、TIFF、BMP、PNG などの形式をサポートします。
- 画像の歪み、ぼやけ、塗りつぶしの新しいピクセルを自動修正します。
パート 8. 安定拡散に関する FAQ
-
1. 安定拡散をオフラインで使用できますか?
はい。このツールはインターネット接続なしでも使用できます。これは、合成データをローカルに保存できるため、インターネット ネットワークなしで使用できるように AI モデルをトレーニングできるためです。
-
2. AIフォトジェネレーターのデメリットは何ですか?
このツールの利点に加えて、このツールは計算量が多くなる可能性があり、より大規模なデータを含む写真やビデオを扱う場合には時間がかかります。もう 1 つは、品質が入力データと使用されるネットワーク パラメーターに依存することです。つまり、高品質の画像が得られるという保証はありません。
-
3. 安定拡散を使用する場合、ハイエンドの機器が必要ですか?
いいえ。フォトジェネレーターは最新バージョンのコンピュータがなくても使用できます。それ以降のバージョンでもAIジェネレーターを使えば十分です。
-
4. テキスト プロンプトはどこで入手できますか?
Stable Diffusion には、プロンプトの検索に役立つテキスト プロンプト エンジニアが組み込まれています。テキストを入力して「検索」ボタンをクリックするだけです。結果はサンプルとして画像とともに数秒で表示されます。
-
5. オンライン ツールを実行するにはどの GPU が必要ですか?
ほとんどの GPU をサポートしているため、6GB で Nvidia と AMD で AI 画像ジェネレーターを実行できます。
結論
この投稿では説明します 安定拡散とは また、クリップ スキップ、VAE、DreamBooth、CFG スケール、ノイズ除去強度との連携方法についても説明します。一方、AnyRec Free Image Compressor Online を使用すると、生成される画像のファイル サイズを減らすことができます。完全に無料で無制限に使用できます!