- Google Cloudに関する記事
Gemini とは。進化した Google の AI モデルの解説と最新情報
こんにちは、クラウドエース編集部です。
本記事では Google の最新生成 AI モデル『Gemini』についての解説と、直近の Gemini に関連する様々な発表について紹介していきます。本記事を読んでいただければ、 Gemini の全体像や、どんなサービスかが理解できる内容になっておりますので、ぜひ最後までお読み頂けますと幸いです。
Gemini の概要
概要
Gemini は、Google が開発し、提供している最新の生成 AI モデルです。このモデルは、2023 年 12 月に初めて発表され、当時からその能力と可能性に対する期待が高まっていました。
Gemini は、2 つの大きな特徴があります。一つ目は、高度なマルチモーダル処理能力で、元々は Bard というサービスに搭載されていた LLM モデルだった Gemini ですが、2024 年 2 月に大きなアップデートが行われ、サービス名も Bard から Gemini へと変更されました。
このアップデートによって、Gemini の最大の特徴の一つであるマルチモーダル処理に繋がるもので、テキストだけでなく、画像や音声といった多種多様なデータ形式を処理する能力を持つようになりました。
二つ目は、Gemini は他の Google のサービスとの直接的な連携が可能であるという特徴を持っています。これにより、ユーザーは他の Google のサービスをより効率的に、そしてより総合的に利用することができるようになりました。
マルチモーダルモデル
マルチモーダルモデルという言葉は、複数の種類の入力データを同時に処理する能力を持つ AI モデルを指します。
これまでの生成 AI モデルは、主にテキストデータを入力として利用するものが大半でした。このようなモデルは、大量のテキストデータを学習し、人間が理解できる文章を生成することに特化していることがほとんどです。
しかし、 Gemini は、テキストはもちろん、音声、画像、動画といった多様なデータ形式を処理する能力を持っています。これは、人間と同じように、異なる種類の情報を同時に理解し、それに基づいた処理をすることができ、今までにない高性能な生成 AI であると言えます。
3 つの異なる用途に対応したモデル
Gemini には、そのバージョンとは別に、それぞれ異なる用途に最適化された 3 つのモデルが提供されています。
Gemini Ultra
Gemini Ultra は、非常に高度で複雑なタスクを実行するための最も高性能で大規模なモデルです。複雑なデータ処理や高度な計算を必要とする業務で活躍します。
有料プランである Gemini Advanced に加入することで、この Gemini Ultra を活用することが可能になります。
提供されているバージョンは 1.0 のみです。
Gemini 1.0 Ultra を他の生成 AI サービスのモデルと比較するのであれば、OpenAI の GPT-4 や Anthropic の Claude 3 に相当するモデルと考えるとイメージしやすいかと思います。
Gemini Pro
Gemini Pro は、多様なタスクを適切なスケールで効率的に処理するのに適したモデルで、一般的なビジネスや個人のニーズに対応しています。
Google アカウントを持っている全てのユーザーが利用できるため、手軽に高性能な機能を活用することができます。
バージョンは 1.0と1.5(プライベートプレビュー)が提供されています。
Gemini 1.0 Pro は GPT-3.5 や Claude 2 に相当するモデルと考えるとイメージしやすいかと思います。
Gemini Nano
Gemini Nano は、デバイス上でのタスクを効率的に実行するのに最適化されたモデルです。
現在、Pixel 8 Pro という先進的な Google のスマートフォンにはこの Gemini Nano が搭載されています。
提供されているバージョンは 1.0 のみです。
Google サービスとの連携
GPT では拡張機能を活用して外部サービスとの連携を行っていましたが、Gemini は Google の様々な既存サービスとデフォルトで連携しています。具体的には Google 検索、YouTube 、Google Maps 、Google flights といったサービスに組み込まれており、サードパーティのプラグインを利用することなく、YouTube の動画の検索や指定した動画の要約を作成したり、フライトの料金や時間を調べたりすることが可能になりました。さらに、Gemini は Gmail などのユーザ個人に紐づくサービスにもアクセスすることができるため、Gemini のプロンプトを通して、メールの閲覧や検索も可能になっています。
他にも日本語ではまだサポートされていない機能ですが、 Google Docs 内の文章の更生や加筆などをしてくれる機能もリリースされはじめています。
このように Gemini は、ユーザの情報アクセスの手間を大幅に削減し、より迅速な情報取得を実現しています。また、既存の Google サービスとの連携は今後も進化を続け、ユーザの嗜好に応じた情報提案などが可能になるため、Google サービスを利用しているユーザや企業からはGemini の今後の進化に大きな注目が集まっています。
Gemini の特徴と、それが従来の AI とどう異なるのか
マルチモーダルな処理能力
従来の生成 AI の多くは、テキストのみを入力データとして扱うものや、入力データの種類ごとに異なるモデルを利用するものが主流でした。
しかし、Gemini はその両方を統合し、同一のモデルで複数の種類の入力データを処理する能力を持っています。
GPT-4 もマルチモーダルな生成 AI とされていますが、モーダルごとに異なったモデルを連携させ合うことでマルチモーダルを実現していますが、Gemini はトレーニング段階から 1 つのモデルとして構築されたため、より複合的な処理を得意としています。
現在、Gemini が扱うことのできるデータの種類は以下の通りです。
- テキスト (Text)
- 画像 (Image)
- 動画 (Video)
- 音声 (Audio)
GPT-4 とのマルチモーダル処理の比較の一例を Google が公表している GPT-4 との比較表から抜粋したものが以下です。
(https://deepmind.google/technologies/gemini/#gemini-1.0 ベンチマークの取得方法については、公式ページを参照ください。)
機能分類 | 説明 | Gemini 1.0 Ultra | GPT-4 |
---|---|---|---|
一般 | 57 科目の課題の正答率 | 90.0% | 86.4% |
推論 | 多段階の推論を必要とする多様な課題の正答率 | 83.6% | 83.1% |
読解理解度 | 82.4% | 80.93% | |
日常タスクに対する推論の精度 | 87.8% | 95.3% | |
数学 | 基本的な算数の正答率 | 94.4% | 92.0% |
難易度の高い数学の問題の正答率 | 53.2% | 52.9% | |
コード | 適切な Python コード生成率 | 74.4% | 67.0% |
画像 | 多分野の大学レベルの推論問題の正答率 | 59.4% | 56.8% |
自然な画像理解度 | 77.8% | 77.2% | |
OCR(文字認識率) | 82.3% | 78.0% | |
文章理解度 | 90.9% | 88.4% | |
グラフの理解度 | 80.3% | 75.1% | |
視覚文脈での数学的推論の正答率 | 53.0% | 49.9% | |
動画 | ビデオキャプションの生成精度 | 62.74% | 56.04% |
ビデオの質問応答の精度 | 54.7% | 46.3% | |
音声 | 自動音声翻訳の精度 | 40.1% | 29.1% |
自動音声認識エラー率(%は低いほど良い) | 7.6% | 17.6% |
ただし、Gemini 1.0 Ultra は現在のところ、英語の回答に対してのみ最適化されているため、他の言語でどの程度の性能を発揮するのかはまだ明らかになっていません。
筆者が日本語で GPT と比較してみたところ、コード生成においては GPT の方が優れていると感じる部分がいくつか存在していたので、日本語でのベンチマークでも GPT を上回れるようになることを期待しています。
Bard と Gemini の違い
Gemini は元々、Google の生成 AI サービスである Bard に搭載されていた AI モデルの名前でした。しかし、2024 年 2 月に行われた大規模なアップデートの一環として、ユーザーインターフェース(UI)などが大きく改良され、サービス名も Bard から Gemini に変更されました。
PaLM 2 と Gemini の違い
PaLM2 もまた、Google が開発した生成 AI のモデルの一つです。PaLM2 は元々 Bard のモデルとして採用されていましたが、PaLM2 はマルチモーダルではなく、多くの点で Gemini の方が優れているため Gemini に置き換えられました。Google Cloud の公式ドキュメントでも、PaLM2 から Gemini への移行手順などが用意されており(https://cloud.google.com/vertex-ai/generative-ai/docs/migrate/migrate-palm-to-gemini)、PaLM2 の後継モデルとしてGemini が位置づけられています。
Duet AI と Gemini の違い
Duet AI は Google Cloud、Gmail、Google ドキュメントなどのサービスで利用できるユーザ支援 AI でしたが、これらも全て Gemini にサービス名称が統一され、Gemini for Google Cloud、 Gemini for Workspace として提供される予定です。
Vertex AI と Gemini の違い
Vertex AI も Google が開発しているサービスですが、 AI モデルではなく、AI プラットフォームと呼ばれるサービスです。そのため、これらは競合するものではなく、Vertex AI で Gemini を利用することでより簡単に生成 AI をシステムに組み込むことができるようになります。
Vertex AI の提供する Search と Conversation の二つの機能の両方で、Gemini モデルを利用することができます。これにより、サービスや組織に特化したエージェントを作成することができます。
Gemini の最新のアップデートとその内容
Gemma
2024 年 2 月 22 日、Google は Gemini をベースとしたオープンで軽量なモデルとして Gemma を発表しました。
Gemma は Gemma 2B と Gemma 7B の二種類存在し、それぞれ事前トレーニングされたモデルとしてリリースされており、オープンモデルの中では最高水準のパフォーマンスであるとされています。
現在は、Vertex AI や Google Kebernetes Engine(GKE) 上ですでに利用することができ、モデルの機能をテストしたりプロトタイプの構築が可能です。
Gemini Advanced 限定機能: Python コードの編集と実行
2024 年 2 月 24 日、Gemini Advanced 限定機能として、Python のコードをユーザーインターフェース(UI)上から直接編集・実行できる機能が追加されました。
この新しい機能により、コードの学習をより直感的でインタラクティブに行うことが可能になりました。また、Gemini が生成したコードを事前に動作確認をすることも、より容易になりました。
Gemini 1.5 の発表
2024 年 2 月 16 日、Gemini 1.0 の次世代モデルである Gemini 1.5 が発表されました。現在は、プライベートプレビューの段階で、一部の企業や開発者のみが利用可能です。
Gemini 1.5 では Mixture–of-Experts (MoE) というアーキテクチャが採用されています。このアーキテクチャは、クエリの処理をモデル全体で行うのではなく、クエリに最も関連する部分だけを実行することで、従来のモデルよりも高速で効率的に処理を行うことが可能になります。
また、コンテキストウィンドウという AI モデルが結果を生成するための情報処理範囲を示すものが最大 100 万トークンとなり、従来の 3 万 2 千トークンよりも遥かに多くのデータを分析できるようになっています。
Gemini Advanced
2024 年 2 月 8 日、Gemini Advanced が提供開始されました。Gemini Advanced を利用することで、Gemini Pro 1.0 に加えて、Gemini Ultra 1.0 を利用できます。
Gemini Advancedを利用するためには、Google One の有料プランである「AI Premium」を契約する必要があります。現在、AI Premium の利用料は月 2,900 円で加入することができます。
AI Premium は Gemini Advanced を利用できるようになるだけでなく以下の特典も含まれます。
- Gmail や Goole Docs での Gemini の利用
- Google Photos や Google Drive で利用できる 2TB のストレージ
- Google Store の 10% 割引
- Google Meet、Google Calender の新機能の利用
まとめ
Gemini は Google が開発した最新の人工知能(AI)モデルで、幅広いマルチモーダル処理能力と高度な言語理解を持っています。この革新的な AI モデルは、テキスト、画像、音声、動画など、様々なデータ形式を同時に処理する能力を持っています。それにより、これまでにないほど正確な情報理解と自然なコミュニケーションを実現しています。
Gemini は、ユーザーの異なるニーズに応じて 3 つのモデル(Gemini Ultra、Gemini Pro、Gemini Nano)が提供されています。各モデルはそれぞれ異なる特性を持ち、ユーザーは自分の目的に最適なモデルを選択できます。
従来の AI モデルと Gemini は情報理解が格段に深く、人間と同等のコミュニケーションが可能です。さらに、多くのベンチマークテストで GPT-4 を上回る性能を示しており、その高いパフォーマンスは広く認知されつつあります。
このような特性から、Gemini は様々な分野での活用が期待されています。また、それを可能にするのが、Gemini が Google のさまざまなサービスと簡単に連携できるという特長です。それにより、ユーザーは Google のサービスを最大限に活用しながら、Gemini の高度な AI 能力を享受することができます。
さらに Google は自社が提供するさまざまな AI サービスの名称を Gemini に統一し、The Gemini era として Gemini が今後 Google のサービスの中核になっていくということを改めて強調していると言えると思います。
Gemini が発表されてから数ヶ月で、すでにさまざまな大きなアップデートが行われてきており、さらなる進化がとても楽しみなサービスです。
※Google、Bard、Gemini、Vertex AI、PaLM 2、YouTube 、Google Maps 、Gmail、Google One は Google LLC の商標です。
※GPT、GPT-4 は Open AI LLC の商標です。
この記事を共有する