Google が Gemini 1.5 を発表。アップデートの概要を徹底解説

公開：2024/02/19 更新：2024/02/20

Google Cloud

Google が Gemini 1.5 を発表。アップデートの概要を徹底解説

2024 年 2 月 15 日（米国時間）、Google は Gemini の新たなバージョン『Gemini 1.5』を発表しました。今回の発表は先進的な AI モデルの開発と応用における Google の継続的な取り組みを体現する内容となっており、先日発表となった Gemini Ultra 1.0 に続いて世界に衝撃を与える発表となりそうです。

Gemini 1.5 は、以前のモデルと比較して計算リソースを大幅に減らしながら、同等かそれ以上の性能を発揮することを目指しています。とりわけ長いコンテキストの理解能力においては顕著な進化を遂げたとされています。これによって、開発者や事業者は、より複雑で多様な AI アプリケーションの開発が可能になるということです。Gemini のアップデートによって AI がもつポテンシャルを最大限に活かした革新的なアプリケーションが次々と登場し、私たちの生活や仕事における利便性や生産性を飛躍的に向上させることが期待されています。

それでは、Gemini 1.5 の主な特徴やアップデート内容について解説していきたいと思います。

Gemini 1.5 の特徴とアップデート内容

今回のアップデートで最も注目されているのが、中規模のマルチモーダルモデル『Gemini 1.5 Pro』です。このモデルは膨大な計算リソースを必要とする従来の AI モデルに対して顕著なパフォーマンスの改善、向上を示しています。

パフォーマンスの向上

Gemini 1.5 Pro は Gemini 1.0 Ultra と同等の性能を、より少ない計算リソースで実現しています。これは Mixture-of-Experts（MoE）と呼ばれるアーキテクチャをモデルのトレーニングに採用したことによって実現されたとのこと。MoE アーキテクチャは、特定のタスクに最も適した「専門家」ネットワークを動的に選択し、全体の処理能力を最大化する仕組みです。このアプローチにより Gemini 1.5 は、より高速で精度の高い学習と推論を行うことが可能になり、エネルギー消費も同時に削減することに成功しました。

また、Gemini 1.5 Pro は、最大 100 万トークンのコンテキストウィンドウの実現に成功し、これまでの LLM（大規模言語モデル）の中でも最長のコンテキストを処理できるようになりました。 Gemini 1.0 Pro は 32,000トークン、GPT-4 Turbo が 128,000 トークンだったので、今回の 100 万トークンというのがいかに異次元の数値であるかということを実感していただけるかと思います。実際のデータで見てみると、1 時間のビデオ、11 時間の音声データ、3 万行のコード、70 万語のテキストが大体 100 万トークンに相当します。ハリーポッターが大体 1 冊あたり 15 万語なので、4 冊分以上の情報を一度に処理できるということになります。
（Google の調査では最大 1,000 万トークンのテストにも成功しているとのことです）

コンテキストウィンドウが長くなったことで、膨大で複雑な情報を一度に理解し、より深いレベルでの推論ができるようになります。これにより開発者や研究者にとっては新しいタイプのアプリケーションの開発と実験・研究などを行うことができ、AI の応用範囲を大きく広げることが期待されます。

また、Gemini 1.5 Pro は Needle In A Haystack（NIAH）評価においても 99 %の正確性を示しています。これはコンテキストウィンドウが増加してもそのパフォーマンスを維持することができることを証明しており、トークンが増えたことで処理できる情報量が増えただけでなく、出力の精度・品質も高いということが言えます。

*Needle In A Haystack（NIAH）評価とは

さらに、Gemini 1.5 Pro は、非常に少数の話者しかいない言語の文法をインプットするだけで、英語からその言語への翻訳を行うことができることが実証されており、「インコンテキスト学習」の能力においても高いポテンシャルを持っています。

インコンテキスト学習能力とは、未知の情報を効果的に理解し、新たなスキルを習得できる、いわば「一を聞いて十を知る」というような能力を指します。従来の学習方法に頼ることなく、新しい情報に迅速かつ効率的に適応することが可能なモデルであると言えるでしょう。
主要な基礎モデルのトークンコンテキストウィンドウの比較
画像引用元（https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#architecture）

Gemini 1.5 の安全性と倫理性

Google は AI 技術の革新が私たち人類にとって利益をもたらすことを前提とし、あらゆる安全性と倫理性の確保に取り組んでいます。Gemini 1.5 の開発、及びリリースにおいても安全性と倫理性は最優先事項として考えられています。広範な倫理と安全性のテストを実施し、その設計初期段階から、利用可能な最高の安全基準とガイドラインに沿って開発が進められてきました。具体的には生成内容への偏りの軽減や、プライバシーの保護、情報の透明性の確保なども含まれています。

また、Google と Deep Mind チームでは、Gemini 1.5 が社会にポジティブな影響を及ぼすために、様々なシナリオにおけるモデルの振る舞いを徹底的にシミュレーションし、テストや評価を行っています。モデルが不適切なコンテンツを生成したり、ハルシネーションを拡散するリスクを最小化するための対策も講じられています。このプロセスには、潜在的な安全リスクを特定し、対処するためのレッドチームの技術も含まれています。

さらに Google は Gemini 1.5 の責任ある使用を確実にするために、開発者と利用者に対してガイダンスとサポートを提供しています。これには、適切な使用事例の推奨や、倫理的な懸念に対応するためのリソースの提供、リスクを緩和するための教育プログラムなどが用意されています。

Gemini 1.5 のプレビュー開始と一般提供について

Google は、Gemini 1.5 のアクセスと利用を拡大するため、Google Cloud と Vertex AI を通じて一部のユーザーへのプレビュー提供を開始しました。

ユーザーは AI Studio や Vertex AI を介して Gemini 1.5 Pro モデルのプレビューとテストの機会にアクセスすることができます。プレビュー期間中、直感的なインターフェースを通じて、テキスト、画像、オーディオ、ビデオなど、複数のモダリティによる交差的な入力と生成が本番環境で 100 万トークンまで実行できます。これにより、コンテンツの生成、編集、要約といった従来の一般的な用途を越えて、より複雑なデータ分析やマルチモーダルなインタラクションの設計まで幅広い用途での活用が想定されます。

例えば、膨大で複雑なコードライブラリ全体を詳細にチェックし、エラーや非効率性を一度のプロンプトでチェックする、長時間の動画コンテンツの中から特定のシーンを抽出する、複雑な問いかけやフォローアップを難なくこなせる高度な対話能力をもつチャットボットを作成する等のタスクを実行することが可能になると考えられます。

ただし、プレビュー期間中については、処理に待ち時間が発生する可能性もあると考えられますので、その点は留意する必要があります。

また、今後予定される Gemini 1.5 の一般提供については標準の 128,000 トークンコンテキストウィンドを備えた Gemini 1.5 Pro が導入される予定となっており、プレビューと同様に最大で 100 万トークンまでスケールアップできる料金プランを導入予定とされていますので、こちらについては今後の発表を待ちましょう。

同時に処理速度の大幅な向上も予定されているとのことです。

まとめ

Google から Gemini のアップデート『Gemini 1.5』が発表されました。また、一部のユーザー向けに Gemini1.5 アップデートの中核となる Gemini 1.5 Pro が AI Studio や Vertex AI を通じてプレビュー提供が開始され、最大 100 万トークンのマルチモーダルなタスク実行が可能になりました。一般提供のタイミングは現時点では未定ですが、標準となる 128,000 トークンでの提供をベースに、最大 100 万トークンまでの料金プランの導入が検討されているとのことです。

最後に、本記事をお読みいただき、ありがとうございます。

Google が提供する生成AI 関連のサービスに興味を持っていただけましたでしょうか？もしそうであれば、『Google Cloudだからできるビジネスと生成AIのシームレスな統合ガイドブック』をダウンロードしてみてください。

生成AI をビジネスにシームレスに統合するための鍵を握る LLM（大規模言語モデル）と、それを実現するGoogle Cloud についてさらに深い理解を得ることができます。資料ダウンロードはこちらから（無料）

本記事は下記を参考に執筆しております。

https://cloud.google.com/blog/ja/products/ai-machine-learning/gemini-on-vertex-ai-expands?hl=ja

https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note

※Google、Google Cloud、Gemini、Vertex AI は Google LLC の商標です。
※本記事は迅速な情報提供を重視し、速報として掲載しております。記事内に誤りがございましたら、後日訂正いたします。