Imagen とは. Google が開発中の新しい画像生成 AI システム

こんにちは、クラウドエース編集部です。

自然言語で指示文を入力するだけで、その通りの画像を出力してくれる「画像生成 AI システム」と呼ばれる技術への関心が高まっています。OpenAI が開発した DALL-E 2 や、Stability AI 社が開発した Stable Diffusion などのサービスはすでに公開もされており、生成された画像（と思われるもの）を web 上や SNS 上で見かけることもあります。

また、AI の分野において長年にわたって研究を行ってきた Google も「Imagen」という画像生成 AI サービスを開発・発表しています。

今回は、世界を大きく変化させる可能性を秘めた「Imagen」の機能や特徴について紹介します。

Imagen とは

Imagen は、2022 年に Google が発表した画像生成 AI システムです。現在はまだ一般提供されていませんが、他社の画像生成 AI サービスと比較しても、高画質・高精度な画像を出力できるとして注目を集めています。

画像生成 AI システムとは

画像生成AIは、ディープラーニングという機械学習の手法を用いて、画像を生成することを説明します。ディープラーニングは、人間の脳の神経回路を模倣したニューラルネットワークというアルゴリズムを用いて、大量のデータから特徴を学習します。

画像生成AIは、まず大量の画像データから、色、形、質感などの特徴を学習します。このとき、画像データの各ピクセルの値を、ベクトルと呼ばれる数値列（つまり単純な構造化データ）に変換して学習を行います。

ベクトルとは、数値を並べた配列です。例えば、色の赤は、赤の明るさ、赤の彩度、赤の色調などの数値を並べたベクトルになります。

画像生成 AI は、テキストや言語による生成プロンプトも同様に数値ベクトル化し、学習していた画像のベクトルとマッピングをすることで特徴に基づいて生成します。このとき、画像の各ピクセルの値を、テキストから予測した特徴値に置換えて、画像を生成します。

例えば、画像生成AIに「赤い服を着た猫の画像を生成してください」というプロンプトを与えると、このテキスト情報を[赤=0,1,0　服=1,0,0　猫=0,0,1]といった感じで数値化し、大量の画像データのベクトルデータと紐付けて、指示内容に近いと判断した画像を AI が生成します。

このプロセスはエンベディングと呼ばれ生成 AI に不可欠な技術として非常に注目を集めています。

画像生成 AI システムの活用事例

このような画像生成 AI サービスは、現在、あらゆる業界・業種で活用されています。特に、以下のような業界での活用が見られます。

アーティストやデザイナー：画像生成 AI を利用して新しいデザインやアイデアについてのインスピレーションを得ることができます。

ウェブデザイナーやマーケター：企業やサービスのロゴ、バナー、広告素材などのデザインを画像生成 AI システムに出力させることで、効率的に、効果的なデザインを生み出すことができます。

カメラマンや画像編集者：古い写真の修復や、画像の解像度を向上させるために AI を使用できます。また、背景の変更や不要なオブジェクトの除去など、画像の加工も行えます。

映像製作者：画像生成 AI システムを利用して、画像や動画の中の人や物、背景など一部を他のものと入れ替える「ディープフェイク」を行えます。映像製作者はこれにより、俳優の顔を他の人物に簡単に差し替えることが可能です。また、特殊効果や仮想の背景を AI を使って作成し、映画に迫力を加えることもできます。

クリエイター：画像生成 AI サービスを使って、ウェブサイトや SNS で使用するイメージを自動生成することもできます。コンテンツの量を増やすことで、ユーザーエンゲージメントの向上に繋げられます。

このように、画像生成 AI システムは、多岐にわたる分野において活用されています。ただし、サービスによっては生成された画像の商用利用が認められていない場合もあります。利用前に規約や著作権などをよく確認しましょう。

Imagen が生成した画像の事例

それでは、実際に Imagen が生成した画像と、そのプロンプト（指示文）をいくつか見てみましょう。

「チョコレートパウダー、マンゴー、ホイップクリームでできた鷲」

「宇宙飛行士のヘルメットを被って、窓から夜景を見ているアライグマ」

「冠を被って王座に座るポメラニアン。2 頭のトラの兵士が王座の隣に立っている」

まるで本物の写真のように見えますね。このように、Imagen ではたとえ突拍子のないような指示であっても、プロンプトに忠実に自然な画像を出力してくれます。

参照元:https://imagen.research.google

Imagen のすごいところ

ここまで、画像生成 AI システムの概要やできることについて紹介してきました。続いては、Google が発表した Imagen について、他社サービスと比較して特に優れている点について見ていきましょう。

他サービスと比べて品質に対する高い評価を獲得

1 つ目のポイントは、Imagen は他サービスと比べて品質に対する高い評価を獲得していることです。

後ほど詳しく紹介しますが、Google 以外にも Imagen のような画像生成 AI サービスを開発している企業は複数あります。そのような他社サービスと比較して、Imagen は自然でテキスト通りの画像を出力できることがわかっています。

具体的に、Google は「VQ-GAN+CLIP」「Latent Diffusion Models」「DALL-E 2」という画像生成 AI と Imagen をテストしています。その結果、「生成された画像の自然さ」および「テキストに忠実で整合性があるか」という点で、他社サービスよりも高い評価を得ています。

Google は、Imagen の開発の際に、事前に学習させる大規模言語モデルのサイズが画像の精度を上げるために重要であることを発見しました。Imagen は、事前学習に利用する大規模言語モデルのサイズを大きくすることで、より自然でテキストに忠実な画像を生成させることに成功しているのです。

専門知識なしで誰でも利用できる

2 つ目のポイントは、専門知識のない人でも利用できることです。

これまで、ウェブでのデザインの作成や画像の加工・編集を行う場合は、専門的なソフトウェアをインストールして、操作方法について学ぶ必要がありました。しかし、機械学習を活用した Imagen では、そのような専門知識を持たない人でも、プロンプトを入力するだけで簡単に希望通りの画像を出力できます。

また、Google はテキストから新たな画像を生成する Imagen だけでなく、生成した画像を簡単に編集する「Imagen Editor」というサービスや、テキストから動画を生成する「Imagen Video」というサービスも開発しています。

Imagen Editor では、生成した画像の修正したい部分を選択してプロンプトを入力するだけで、その通りに画像が瞬時に変更されます。例えば、鹿の画像を生成し、角の部分を選択して「2本の木」と入力すれば、角の部分が木のように見える画像を出力できます。

このように、Imagen では難しい操作なしで、希望通りの画像を瞬時に作成することができるのです。

Imagen の類似サービス

画像生成 AI サービスを開発している企業は、Google だけではありません。最後に、他社が提供している Imagen のような画像生成 AI システムについて紹介します。

DALL-E 2

DALL-E 2 は、会話型 AI「ChatGPT」を開発した OpenAI が提供する画像生成 AI サービスです。

DALL-E 2 の特徴は、コンテンツ作成に便利な機能が豊富に用意されていることです。例えば ⁠Outpainting という機能を利用すれば、既存の画像の外側を AI が自動的に描画してくれます。反対に、⁠Inpainting という機能では、生成した画像の一部を消しゴムで消して、再度プロンプトを入力すると、消した部分をその内容に基づいて描き変えてくれます。また、Variation⁠ という機能では、生成した画像をもとに別の画像を生成することもできます。

DALL-E 2 は、現在有料で一般提供されています。1 回のテキスト入力で 4 枚の画像が出力されるクレジット制で、115 クレジットが 15 ドル単位で販売されています。なお、購入したクレジットの有効期限は 1 年間です。

DALL-E 2

Stable Diffusion

Stable Diffusion は、イギリスの Stability AI が開発した画像生成 AI サービスです。

Stable Diffusion の大きな特徴は、オープンソース化されていることです。そのため、誰でも無料で枚数制限なく画像生成を楽しむことができます。具体的には、「Hugging face」や「 Clipdrop」「DreamStudio」といったサイトで画像生成を行えるほか、所有しているコンピュータに「Stable Diffusion web UI」というツールをインストールすれば、ローカル環境で利用することも可能です。

Stable Diffusion を利用できる各サービスでは、それぞれユニークな機能も提供されています。例えば、Clipdrop では有料で範囲外の部分を描画する Uncrop という機能や、Reimagine XL というベースの画像と同じスタイル・要素を含んだ画像を生成する機能などが利用可能です。なお、これらの Web で提供されている一部サービスについては、有料での提供となっています。

Stable Diffusion