• Google Cloudに関する記事
8分で読める

Vertex AI の新しい生成 AI 基礎モデル 「Imagen」「Codey」「Chirp」とは

こんにちは、クラウドエース編集部です。
 

まるで人間と対話するように会話できたり、自然言語で指示を与えるだけで画像を生み出したりする「生成 AI」と呼ばれるサービスが注目を集めています。このような生成 AI サービスを構築する上で核となるのが、基礎モデルです。
 

基礎モデルとは、生成 AI が言語を理解したり画像を認識したりするために必要な、基本的な知識やアルゴリズムを提供するためのルールブックのようなものです。基礎モデルがしっかりと構築されていれば、さまざまな応用やタスクを実現できるということです。
 

この記事では、Google Cloud の AI 関連プロダクトの統合プラットフォーム「Vertex AI」で基盤モデルとして提供されている、 3 つの生成 AI 基礎モデル 「Imagen」「Codey」「Chirp」について紹介します。

Imagen とは

Imagen とは、2022 年 にGoogle が開発した画像生成 AI システムです。高品質・高精度な画像を出力するサービスとして高い注目を集めており、2023 年 5 月に、テスタープログラムを通じて Vertex AI で利用可能となりました。
 

同様の画像生成 AI の代表的なサービスとしては、イギリスの Stability AI 社が開発した「Stable Diffusion」や、ChatGPT を開発したOpenAI による「DALL-E 2」、Discord というチャットサービス上で利用できる「Midjourney」などがあります。
 

具体的な機能

Imagen は、人間に指示を出す時のように、自然言語で生成してほしい画像について記述するだけで、意図を汲み取って画像を生成してくれるサービスです。Imagen の Web サイトでは、プロンプト(指示文)と生成された画像の具体例として、以下のようなものが掲載されています。
 

「脳みそがロケットに乗って月に向かっている」

「タイムズスクエアで自転車に乗っているコーギーの写真。犬はサングラスとビーチハットをつけている」

奇想天外な指示であっても、非常にプロンプトに忠実な画像を生成してくれることがわかりますね。
 

なお、Google では生成した画像を簡単に編集する「Imagen Editor」というサービスや、テキストから動画を生成する「Imagen Video」というサービスも開発しています。例えば Imagen Editor では、生成した画像の指定部分に対して「色を赤に変えて」「星をハートに変えて」「立体的にして」といった指示を加えるだけで、瞬時に異なるバージョンの画像を生成することができます。
 

ユースケース・活用方法

Imagen のような画像生成 AI サービスは、デザイナーなどクリエイティブな仕事ではもちろん、それ以外にも多岐にわたるビジネス分野において活用されています。
 

  • 商品画像の生成:オンラインショップの運営には、数多くの商品画像が必要となります。Imagen や ​​Imagen Editor を利用すれば、単一の写真から他のアングルや、背景や環境と組み合わせたスタイリング提案画像の生成もできます。
  • 仮想試着:オンラインショッピングでの商品選びに対する不安を解消するために、Imagen を用いて顧客のアップロードした写真に服やアクセサリーを合成することが可能になります。この技術により、商品の色、サイズ、スタイリングを事前に仮想試着でき、購入意欲と顧客満足度を高めます。
  • 建築デザイン:建築家やデベロッパーは、建築物のデザインをクライアントにわかりやすく説明する必要があります。Imagen は、設計図から建物のリアルな 3D モデルや外観イメージを生成するのにも役立つと考えられます。
  • メディアや広告:メディアや広告業界では、特定のターゲットに対してパーソナライズされたコンテンツを生成することが求められています。個人に合わせた広告を作成するには大量の画像が必要となりますが、Imagen を使えば、広告バナーや SNS 投稿など、大量コンテンツのカスタマイズや自動生成を容易に行えるでしょう。
  • 医療診断の補助:画像生成 AI システムは医療分野での活用も期待されています。例えば 2D 画像から 3D 画像を生成することで、より詳細な臨床情報を得られるようになったり、あらゆる病態の画像を生成して病変のシミュレーションを行うことで、新しい治療法の効果を予測したりできると考えられます。

 

このように、Imagen は幅広い業界のあらゆる創造的なタスクを自動化し、業務効率を向上させてくれると期待されています。
 

Codey とは

Codey は Google Cloud が提供するテキストからコードを生成する基盤モデルです。Codey を利用することで、ソフトウェアの開発速度を大きく向上させることができます。
 

Codey と同様の機能を提供するサービスとしては、OpenAI の「Codex」や OpenAI と GitHub が共同で開発した「GitHub Copilot」、Meta 社の「Code Llama 2」などがあります。また、対話型 AI の「ChatGPT」や「Google Bard」に要件を与えることでコードを出力させたり、コードのエラー原因を突き止めさせたりすることも可能です。
 

具体的な機能

Codey の機能は、「コード補完」「コード生成」「コードチャット」の 3 つです。
 

  • コード補完:プロンプトに入力されたコードの文脈に基づいて、Codey が次の数行を提案します。
  • コード生成:自然言語で入力したプロンプトをもとに、コードを生成します。
  • コードチャット:コードに関連する質問に対する回答を会話形式で得られます。

 

Codey は Go、Google Standard SQL、Java、Javascript、Python、Typescript など、20 以上の言語に対応しています。また、2023 年 8 月には日本語対応も発表されています。これにより、例えば「Python でクイックソートを実装したい」と日本語で入力するだけで、そのコードが生成されます。もちろん、コードに関する質問がある場合も、日本語で疑問を投げかけ、自然な日本語での回答を得られます。
 

ユースケース・活用方法

Codey は、ソフトウェア開発やプログラミングの分野で幅広く活用されています。ここからは、具体的にどのようなタスクに Codey が役立つのかについて見てみましょう。

  • ドキュメンテーション作成:アプリケーション開発においては、コードの適切なドキュメンテーション(システムの内容を他の人にわかるように詳しく説明した資料を作ること)が重要です。Codey を利用することで、コードの機能や関連するコメントを自動的に生成することができます。
  • カスタム API やライブラリの作成:エンジニアはアプリ開発の際、プロジェクトごとに API(ソフトウェアとアプリケーションをつなぐもの)やライブラリ(汎用的に使うプログラムをまとめたもの)を作成する必要があります。Codey を使えば、ニーズに合わせてカスタマイズされた API やライブラリの自動生成も可能です。これによりプロジェクトの効率性や再利用性を向上できます。
  • テストケースの生成:ソフトウェアをテストすることは、品質保証において重要です。Codey を利用することで、ソフトウェアの機能をテストするためのコードを自動生成できます。網羅的なテストを迅速に行えるようになることで、バグの早期発見に繋げられます。

 

このように、Codey のコード生成機能でコードを記述させたり、コード補完機能でバグやエラーを検出したりしてアプリ開発に必要なタスクを自動化することで、開発速度を大きく向上させることができます。
 

Chirp とは

Chirp とは、Vertex AI で利用可能な音声認識サービスです。人が話した言葉を高精度で認識し、それをテキストデータに変換して出力してくれます。
 

このような音声認識プロダクトは、各クラウドサービスでも提供されています。例えば、AWS では「Amazon Transcribe」、Azure では「Azure AI Speech」、IBMでは「Watson Speech to Text」というプロダクトを利用できます。
 

具体的な機能

Chirp は、人間の言葉を理解して、それを文章に起こしてくれるサービスです。高い精度で言葉を認識できることと、多言語に対応していることが大きな魅力です。
 

具体的に Chirp は、数 100 万時間分の音声で訓練された 20 億パラメータの音声モデルからできています。パラメータとは、モデルが学習する際の設定や特性を決定する数値であり、パラメータの数が多いほど、より複雑で高度なタスクに対応できることを示します。

参照:https://cloud.google.com/blog/ja/products/ai-machine-learning/google-cloud-launches-new-ai-models-opens-generative-ai-studio
 

さらに、Chirp は 100 以上の言語に対応しています。音声認識の能力も非常に高く、英語では 98% の精度を達成しています。また、話者が 1 千万人以下の言語においても以前のモデルと比較して約 300% の精度向上を実現しているとのことです。
 

ユースケース・活用方法

Chirp をはじめとする音声認識サービスが、実際のビジネスにどのように活用されているのか、具体的な事例について見てみましょう。
 

  • 音声アシスタント:Google Assistant や Alexa、Siri など、音声アシスタントサービスでは、ユーザーの音声をテキストに変換するために音声認識プロダクトが採用されています。
  • カスタマーサポート:顧客対応センターを保有する企業では、音声認識サービスを利用することで顧客の音声通話を自動的にテキストに変換しています。これにより、問い合わせ内容を把握しやすくなり、問題解決や適切なサポートの提供が効率的にできるようになります。
  • 医療記録:医療機関では、医師や看護師が診察中に患者情報を録音し、それを音声認識サービスを利用してテキストに変換して電子健康記録に保存できます。これにより、情報の正確性と作業効率の両方を向上させることが可能です。
  • 法的記録:法律事務所や司法機関では、法廷での証言や法的記録を音声認識プロダクトを使って音声からテキストに変換できます。これにより、法的文書の作成や証拠の整理が容易になるでしょう。
  • 字幕生成:メディア企業は、テレビ番組やポッドキャストの音声コンテンツをテキストに変換して、字幕や文字起こしを自動生成できます。これにより、聴覚障害のある人や外国語話者にとってもコンテンツにアクセスしやすくなります。また、音声をテキストに変換することで、コンテンツの検索性を向上させることも可能です。

 

音声認識機能は、上記のような業界に限らず、例えば会議の際に議事録やメモを作成するなど、広く利用することができます。
 

まとめ

ここまで、Google が発表した新たな生成 AI モデル「Imagen」「Codey」「Chirp」について解説してきました。ぜひ貴社のビジネスにおいて Google Cloud の生成 AI の活用を検討していただけますと幸いです。
 

また、2023 年 8 月 22 日に開催された Google Cloud Generative AI Summit において、弊社クラウドエースが Google Cloud 生成 AI ソリューションパートナー 『パートナーカテゴリ:生成 AI ロケットスターターパッケージ*』に選出されました。

詳細はこちら:https://cloud.google.com/blog/ja/topics/partners/generative-ai-partner-ecosystem-in-japan/
 

生成 AI ロケットスターターパッケージ *

お客様企業が生成 AI 導入を行う際の技術支援を行うパートナー企業です。基盤モデル API を既存システムと連携させ、Embeddings や Matching Engine を活用して基盤モデルを更にお客様企業の文脈に沿ったものにするための支援などを行ないます。

 

生成 AI の導入における技術的な支援をご検討されている企業様、ぜひ弊社までお問い合わせいただけましたら幸いです。
 

お問い合わせ窓口はこちら
 

※Google、Google Cloud、及び Google Assistant は Google LLC の商標です。

この記事を共有する

合わせて読みたい