画像生成AIまとめ

最近テレビでもchatGPTを取り上げることが多く、一般にも生成AIが浸透しつつあります。
嘘の回答をすることが多いですが、話し言葉で質問しても伝わる。最もらしい回答をする。などが一般に受けている理由ではないでしょうか。

chatGPTのようなAIは生成AI、ジェネレーティブAIと呼ばれています。
chatGPTは自然言語系ですが、この記事では画像系の生成AIについて紹介します。

詳細は説明しませんので、AIの現在地をとりあえず知りたい企業の上層部向けです。
簡単に画像生成を体験できるサイトも紹介しますので、とりあえずやってみたい方向けです。

ちなみにchatGPTに生成AIについて聞くとこんな回答をしてくれました。

生成AIとは何か100文字で教えて

chatGPT

生成AIは、人工知能の一種であり、機械学習の手法を用いて、新しいデジタルコンテンツを自動生成する技術のことです。画像、音声、自然言語、動画など、様々な種類のコンテンツを生成することができます。

画像生成AI

画像を生成できるAIです。
ここではGANと拡散モデルについて紹介します。

GAN

Generative Adversarial Network（敵対的ネットワーク）と呼ばれる技術。
訓練画像から似た画像を生成し、それが訓練画像なのか生成画像なのか判定させながら学習します。

人の顔を生成したり、ピカソ風の画像に変換したり、画像を高画質化したり、モザイク除去したりできます。
ディープフェイク、フェイクポルノのような言葉が生まれるきっかけとなった技術です。

次に紹介する拡散モデルに取って代わられつつある印象です。

拡散モデル

拡散モデルと言えばDDPM（Denoising Diffusion Probabilistic Models）を指すことが多いです。
DDPMをベースにさまざまなモデルに発展させています。
訓練画像にノイズをかけ、それを元に戻しながら学習します。

世にある拡散モデルはテキストから画像を生成する物が多いです。
これは拡散モデルにCLIPのようなエンコーダでテキスト情報を追加しているためです。

画像生成AIは2022年から各組織が競うように発表しています。
ここでは有名なもの4つについて紹介します。

1. Stable Diffusion 系

2022年8月にStability AIが発表しました。
何よりオープンソースで発表しましたので、AI技術者によるさらなる発展を促しました。
様々な企業もStable Diffusion を使ってサービスを提供しています。

バージョンにより1系と2系があります。
さらに2023年4月、Stable Diffusion XLなるものを発表しました。
2系より短いプロンプトで画像生成できるそうです。
https://ja.stability.ai/stable-diffusion

Stable Diffusion のモデル

Stable Diffusion 1.4
Stable Diffusion 1.5
Stable Diffusion 2
Stable Diffusion 2.1
Stable Diffusion XL

2. DALL-E 系

2022年1月にOpenAIが発表しました。
OpenAIはchatGPTで有名な企業です。CLIPを発表した企業でもあります。
OpenAIは生成AIにおいて、世界をリードしていると言えるでしょう。

DALL-E のモデル

DALL-E
DALL-E2

3. Midjourney 系

2022年8月にMidjourneyが発表しました。
Midjourneyで生成した画像が美術品評会で1位を取ったことで有名です。
それもあるのか、Stable Diffusion よりアート系の画像生成が得意です。

Midjourneyのモデル

Midjourney
Midjourney 4
Midjourney 5

4. Google 系

Googleの画像生成AIはネット上で非公開となっています。
そのためどんな画像を生成するか、あまりよくわかっていません。
2023年1月にMuseというモデルを発表しました。

Google のモデル

Imagen
Parti
Muse

画像生成AIのお試し

画像生成AIがどんな画像を生成するのか、試すことができます。（Google系以外）
ここでは簡単にネット上のブラウザで試すものから、ローカルに環境構築して試すものまで紹介します。

ブラウザで画像生成

最も手軽に生成できます。
アカウントの生成が不要なものもあります。
月に25回は無料という制限があるものが大半です。

Stable Diffusion 系

オープンソースなのでいろんなところで使われています。

Stable Diffusion ・・・公式。無料
DreamStudio・・・25回/月で無料
Canva・・・100枚/日で無料
Laxica・・・無料
Mage・・・無料

DALL-E 系

DALL-E・・・公式。15回/月で無料
Microsoft Bing Image Creator

Midjourney 系

Midjourney・・・公式。25回/月で無料

その他

Firefly・・・Adobeの画像生成AI

アプリで画像生成

いずれもStable Diffusion を体験できるアプリです。
Windows OS、Mac OS、iOSなど様々なデバイスで動きます。

クラウド、APIで画像生成

Amazon Bedrock

Amazonは2023年4月、Amazon BedrockというAWSを発表しました。
画像生成だけでなくテキスト生成、テキスト要約もできるサービスのようです。
画像生成AIにはStable Diffusion を採用しているそうです。
AWSなので、企業が自社サービス開発に生成AIを使いたいときに採用しやすいと思います。
chatGPTにもAPIがありますが、今後どうなっていくか楽しみです。
https://aws.amazon.com/jp/bedrock/

Stable Diffusion XL

前述したStable Diffusion XLはAPIも用意すると言っています。
現在もStable Diffusion Web UIなどあり、カスタマイズして使えますが、より使いやすくなるかもしれません。

Stable Diffusion Web UI @Google Colab

Stable Diffusion Web UIをGoogle Colabで実行することにより、
GPUを持っていなくてもある程度自由に画像生成することができます。
いくつかjupyter notebookがありますので、好きなものを試すとよいです。

ローカルで画像生成

Stable Diffusion Web UI @ローカルマシン

GPUを持っているなら、ローカルPCに環境構築し画像生成することをオススメします。
自由度が高いのでパラメータを変えながら画像を生成できます。
環境構築方法はこちらを参考にしてみてください。