【第 5 回】Generative AI Leader 資格集中講座

こんにちは! クラウドエースのエモーショナル エバンジェリスト、ラリオスです。

「Generative AI Leader 資格集中講座」シリーズ、前回(第 4 回)は、自律的にタスクを実行する「AI エージェント(Agent)」の概念や、それを支える「プラットフォーム(Platform)」としての Vertex AI、そして TPU のような強力な「インフラストラクチャ(Infrastructure)」について解説しました。AI ソリューションがどのように構築され、運用されていくのか、その全体像が見えてきたのではないでしょうか。

▼ 第 4 回目はこちら
【第 4 回】 Generative AI Leader 資格集中講座!Vertex AI・AI エージェントの活用法

このシリーズでは、Google Cloud 公式のスタディガイドを使って解説していきます。スタディガイドは下記のリンクからご登録いただければダウンロードできます。スタディガイドを参照しながら読み進めていただくと、より効果的に学習できます。

なお、解説中の「★ここ重要!」は試験対策として特に押さえておくべきポイント、「★Tips」は知っておくと理解が深まる補足情報や関連情報として読み進めてください。ある程度知識があって、すぐに試験を受ける方は「★ここ重要!」を読んで、「実践演習クイズ」を解くだけでも高い効果があるはずです。

スタディガイドはこちらからダウンロードできます。

第 5 回目の今回は、スタディガイドの p.7 に進み、「Google Cloud の生成 AI 製品 | API 編」と題して、Google Cloud が提供する強力な AI 関連の API について詳しく解説していきます。これらの API を活用することで、複雑な AI モデルの知識がなくとも、高度な AI 機能をみなさんのアプリケーションに簡単に組み込むことができます。

Google Cloud の生成 AI 製品 | API 編(Google Cloud’s generative AI offerings : APIs)

API(Application Programming Interface)とは、ソフトウェアやプログラム同士が情報をやり取りするための「窓口」や「接続部品」のようなものです。これらの API を活用することで、開発者は複雑な AI モデルの仕組みを深く理解していなくても、高度な AI 機能を自分たちのアプリケーションやサービスに比較的簡単に組み込むことができます。

スタディガイド p.7 では、主に以下の AI 関連 API が紹介されています。それぞれの API がどのような機能をもち、どのようなユースケースで役立つのかを見ていきましょう。

Speech-to-Text API | 音声をテキストに変換

この API は、音声を高精度でテキストデータに変換します。 会議の議事録作成、ボイスメールの文字起こし、音声コマンドによるアプリケーション操作など、さまざまな場面で活用できます。 また、リアルタイムでの音声認識も可能です。

★Tips
たとえば、カスタマーサポートの通話内容をテキスト化して分析しやすくしたり、動画コンテンツに自動で字幕を付けたりといったユースケースが考えられます。

Document AI API | ドキュメント処理を自動化

Document AI API は、スキャンされた書類やデジタルドキュメント(PDF、画像など)から、テキストだけでなく、構造化されたデータ(例:請求書の項目名と金額、契約書の条項など)を抽出します。 これにより、手作業によるデータ入力やドキュメント分類といった時間のかかる作業を自動化し、業務効率を大幅に向上させることができます。 また、ドキュメントの要約機能も備えています。

★ここ重要!
Document AI API は、単に画像から文字を読み取る(OCR)だけでなく、ドキュメントの「意味」を理解し、特定の情報を構造化して抽出できる点がポイントです。 たとえば、請求書の中から「請求金額」や「支払期日」といった項目を自動で認識し、データとして取り出すことができます。

一方、後述する Cloud Vision API も画像からのテキスト抽出(OCR)が可能ですが、こちらはより汎用的な画像認識機能の一部として提供されています。 ドキュメント処理に特化し、帳票のような定型的な文書から特定の情報を効率的に抽出したい場合は Document AI API、一般的な画像に含まれる文字を読み取りたい場合や、物体検出など他の画像認識機能と合わせて使いたい場合は Cloud Vision API、といった使い分けを意識するとよいでしょう。 実際の試験でも、このようなユースケースに応じた API の選択が問われる可能性があります。

Text-to-Speech API | テキストを自然な音声に変換

この API は、入力されたテキストを、非常に自然で人間らしい音声に変換します。 さまざまな言語や声のタイプを選択でき、音声の速度やピッチも調整可能です。

★ここ重要!
ナビゲーションアプリの音声案内、ニュース記事の読み上げ、オーディオ ブックの作成、さらには AI アシスタントやチャットボットの音声応答など、声を通じたユーザー インターフェース(VUI:Voice User Interface)の構築に役立ちます。

ここで、以前スタディガイド p.4 で触れた音声関連モデル「Chirp」との違いが気になる方もいるかもしれません。 Chirp は、Google の研究開発から生まれた、より大規模で高品質な「ユニバーサル音声モデル」であり、非常に自然で多様な音声を生成できます。 一方、Text-to-Speech API は、既存のアプリケーションに音声合成機能を「API として簡単に組み込む」ことを主眼とした、より実用的ですぐに利用可能なサービスと捉えるとよいでしょう。

試験では、特定のビジネス要件に応じて、どちらのアプローチがより適切かを判断するような視点が求められる可能性があります。(たとえば、既存システムへの迅速な音声機能の追加には Text-to-Speech API、非常に高品質で表現力豊かなナレーション生成が求められる場合には Chirp のような基盤モデルの活用を検討するなど)Text-to-Speech API は、多くの標準的なユースケースで十分な品質と機能を提供し、開発の容易さという点でメリットがあります。

Translation API | 多言語間の翻訳

Translation API は、テキスト、ドキュメント、ウェブサイト、さらには音声ファイルや動画ファイルの内容を、多くの言語間で高精度に翻訳します。

★Tips
グローバルにビジネスを展開する企業にとって、ウェブサイトの多言語化、顧客サポートの多言語対応、社内ドキュメントの翻訳など、コミュニケーションの壁を取り払ううえで非常に強力なツールです。

Document Translation API | ドキュメントのレイアウトを維持したまま翻訳

Translation API の一部として、とくにドキュメントの翻訳に特化した機能です。 PDF や Word といったフォーマットのドキュメントを翻訳する際に、元のレイアウトや書式を可能な限り維持したまま翻訳結果を出力します。

★Tips
マニュアルや契約書、プレゼンテーション資料など、レイアウトが重要なドキュメントを翻訳する際に非常に便利です。

Cloud Vision API | 画像コンテンツの分析

Cloud Vision API は、画像の内容を分析し、その画像に含まれる物体や顔、ランドマーク、ロゴ、テキストなどを検出・認識します。 また、画像の感情分析(例:喜び、悲しみなど)や、不適切なコンテンツの検出(コンテンツ モデレーション)も可能です。

★ここ重要!
たとえば、製品画像からの自動タグ付け、ユーザーが投稿した画像の不適切コンテンツのチェック、写真に写っている場所の特定(観光アプリなど)、視覚障碍者向けの画像内容説明といった、幅広い応用が考えられます。

先ほどご紹介した Document AI API との使い分けとして、こちらはより汎用的な画像認識タスクや、画像内の特定の要素(物体、顔など)の検出に向いていると覚えておきましょう。

Cloud Video Intelligence API | 動画コンテンツの分析

この API を利用すると、開発者は動画コンテンツを分析し、その中から意味のある情報(例:特定のシーン、物体、テキスト、音声など)を抽出できます。

★Tips
動画アーカイブからの特定シーンの検索、動画コンテンツへの自動タグ付けによるレコメンド精度の向上、動画内の不適切コンテンツの検出、スポーツ イベントのハイライトシーン抽出など、動画データをより深く活用するための機能を提供します。

Natural Language API | 非構造化テキストからインサイトを抽出

Natural Language API は、非構造化テキストデータ(例:ニュース記事、顧客レビュー、SNS 投稿など)から、感情分析(ポジティブ/ネガティブなど)、エンティティ抽出(人名、組織名、地名など)、構文解析、コンテンツ分類といったインサイトを引き出すのに役立ちます。

★Tips
顧客の声の分析による製品改善、市場トレンドの把握、競合他社の動向分析など、テキストデータに隠された価値ある情報を見つけ出すために活用できます。

これらの API を効果的に活用するスキルは、ビジネスの現場で AI ソリューションを迅速に構築するうえで非常に重要です。クラウドエースでは、これらの API を含む Google Cloud の AI サービス全般をハンズオンで学べる「Introduction to AI and Machine Learning on Google Cloud」や、より開発者向けに特化した「Application Development with LLMs on Google Cloud」などのトレーニングをご用意しています。

エージェントからのアプリケーション構築(Building applications from your agents)

スタディガイド p. 7 の最後では、AI エージェントからアプリケーションを構築する方法として、Gemini API へのアクセス方法にも触れられています。

Gemini API へのアクセス方法

  • Google Cloud 開発者ツール
    Cloud Functions や Cloud Run といったサーバーレス環境から Gemini API を呼び出すことができます。
  • ローコード/ノーコード ツール
    Apps Script や AppSheet といったツールを使うことで、専門的なプログラミング知識がなくても、Gemini の機能を活用したアプリケーションを構築できます。

★ここ重要!
これは、AI 開発のハードルを下げ、より多くの人が AI の力を活用できるようにするための重要なアプローチです。 とくに AppSheet は、スプレッドシートなどの既存のデータソースから簡単に業務アプリを作成できるノーコード プラットフォームであり、これに Gemini のような生成 AI 機能が組み合わさることで、さらに強力なツールになります。

ラリオス的!とくに注目したいポイント

スタディガイド p.7 で紹介されている各種 API は、Google Cloud の AI 機能を「部品」として利用し、独自のソリューションを構築するための重要な手段です。

  • 各 API の「得意技」を理解する
    Speech-to-Text は音声→テキスト、Text-to-Speech はテキスト→音声、Document AI はドキュメントの構造理解とデータ抽出、Cloud Vision API は汎用的な画像認識とテキスト抽出(OCR)、Natural Language API はテキスト分析、Translation API は翻訳、というように、それぞれの API がどのような種類のデータを扱い、どのような処理を得意とするのかをしっかりと区別して覚えましょう。 とくに Document AI API と Cloud Vision API の使い分け、そして Text-to-Speech API と音声生成モデル(Chirp)の位置づけの違いは重要なポイントです。
  • 具体的なユースケースをイメージする
    各 API が、実際のビジネスシーンでどのように役立つのか、具体的な活用例をいくつか思い浮かべられるようにしておくと、知識が定着しやすくなります。 たとえば、「カスタマーサポートの品質向上のために、通話内容を Speech-to-Text API でテキスト化し、Natural Language API で感情分析を行う」といった具体的な流れをイメージできると強いです。
  • Vertex AI との使い分けを意識する
    これらの事前学習済み API は、特定のタスクに対してすぐに利用できるというメリットがありますが、より高度なカスタマイズや独自のモデル開発が必要な場合は、Vertex AI のような統合プラットフォームが選択肢となります。 「すぐに使える部品としての API」と「柔軟に開発・運用できるプラットフォームとしての Vertex AI」という位置づけの違いを理解しておくことは、ソリューション選定において重要です。
  • ローコード/ノーコード ツールとの連携
    Gemini API を Apps Script や AppSheet から利用できるという点は、AI 開発の民主化という観点から注目すべきポイントです。 専門家でなくても AI を活用したアプリケーションを構築できる可能性を示しています。

学習のヒント

  • 「この API があったら、どんなことができるだろう?」と考える
    各 API の説明を読んだら、ご自身の業務や興味のある分野で、その API を使ってどんな新しいサービスや業務改善ができるか、自由に発想してみましょう。
  • Google Cloud の公式サイトで各 API の詳細を確認する
    公式サイトには、各 API のより詳しい機能説明、デモ、料金体系、利用開始方法などが掲載されています。 興味をもった API については、ぜひ深掘りしてみてください。
  • 「組み合わせ」を意識する
    単独の API だけでなく、複数の API を組み合わせることで、より高度で複雑なソリューションを構築できる場合があります。 たとえば、Speech-to-Text API と Translation API と Text-to-Speech API を組み合わせれば、リアルタイム音声翻訳システムのようなものが考えられますね。

理解度チェック!ミニクイズ

さて、ここまでの内容をどれくらい理解できたか、簡単なクイズで確認してみましょう!

【クイズ 1】
スキャンされた請求書や契約書などのドキュメントから、テキストだけでなく、項目名や金額といった構造化されたデータを抽出し、データ入力を自動化するのに最も適した Google Cloud の API はどれですか?

(ア)Cloud Vision API
(イ)Natural Language API
(ウ)Document AI API
(エ)Speech-to-Text API

【クイズ 2】
ある企業が、グローバル向けに提供しているウェブサイトのコンテンツを、訪問者の言語設定に合わせてリアルタイムで翻訳表示したいと考えています。この目的を達成するために最も適した API はどれですか?

(ア)Text-to-Speech API
(イ)Translation API
(ウ)Cloud Video Intelligence API
(エ)Dialogflow CX API

【クイズ 3】
顧客からの製品レビュー(テキストデータ)を分析し、そのレビューが製品に対して肯定的か否定的かといった感情を把握したい場合、どの API の利用が最も適していますか?

(ア)Cloud Vision API
(イ)Natural Language API
(ウ)Speech-to-Text API
(エ)AutoML Tables

クイズの答え

【クイズ 1】(ウ)Document AI API
【クイズ 2】(イ)Translation API
【クイズ 3】(イ)Natural Language API

ラリオスからの挑戦状!実践演習クイズ

ここからは、より深く、そして実践的な視点からのクイズです。Generative AI Leader Sample Questions のレベル感を意識して挑戦してみましょう!

【実践演習クイズ 1】
ある小売業の EC サイトでは、顧客がチャットで問い合わせをした際に、過去の類似の問い合わせとそれに対する模範解答をオペレーターに提示し、迅速かつ質の高い応答を支援するシステムを導入したいと考えています。 このシステムでは、顧客の問い合わせ内容(テキスト)を理解し、過去の膨大な FAQ や対応履歴データベースから関連性の高い情報を検索し、オペレーターが参照しやすい形で提示する必要があります。 この一連の処理を実現するために、組み合わせる可能性が高い Google Cloud の API またはサービスとして、最も適切なものはどれですか。

(ア)Speech-to-Text API で顧客の音声をテキスト化し、Vertex AI Search で FAQ を検索し、Text-to-Speech API で回答を読み上げる。
(イ)Natural Language API で問い合わせ内容の意図を分析し、Vertex AI Search で FAQ データベースを検索し、その結果をオペレーター支援インターフェースに表示する。
(ウ)Cloud Vision API でチャット画面を画像認識し、Document AI API でチャットログから重要な情報を抽出し、Translation API で多言語対応する。
(エ)Gemini API を直接利用し、プロンプト エンジニアリングのみで、顧客の問い合わせに対する最適な回答をゼロから生成させる。

実践演習クイズの答えと解説

【実践演習クイズ 1】
(イ)Natural Language API で問い合わせ内容の意図を分析し、Vertex AI Search で FAQ データベースを検索し、その結果をオペレーター支援インターフェースに表示する。

このシナリオの核心は、顧客のテキストによる問い合わせ内容を理解し、関連情報を検索してオペレーターを支援することです。 まず、顧客の問い合わせ内容(テキスト)の意図や重要なエンティティを理解するためには、Natural Language API が適しています。 次に、その理解に基づいて、膨大な FAQ や対応履歴データベースから関連性の高い情報を検索するには、Vertex AI Search のような高度な検索ソリューションが有効です。

(ア)は音声入力が前提であり、また回答の読み上げは必須ではありません。
(ウ)はチャット内容の理解というより画像認識やドキュメント構造理解が主になっています。
(エ)はゼロから回答を生成するアプローチであり、FAQ や対応履歴を活用するという要件と異なります。 RAG のようなアプローチの方が適切でしょう。

この問題は、複数の API やサービスを組み合わせ、特定の業務課題を解決するシナリオを想定しています。 各 API の得意分野を理解し、それらをどう連携させるかを考えることが重要です。 また、Vertex AI Search のような検索・レコメンド ソリューションが、RAG(検索拡張生成)アーキテクチャにおいて重要な役割を果たすことも意識しておくとよいでしょう。

まとめ | API を活用し、AI ソリューション開発を加速する(クラウドエースのトレーニング紹介)

今回の解説はここまでです!スタディガイド p. 7 では、Google Cloud が提供する多様な AI 関連 API について学びました。 これらの API を活用することで、AI 開発のハードルを下げ、迅速にイノベーションを実現できる可能性が広がりますね。

音声、テキスト、ドキュメント、画像、動画といった、さまざまなデータに対応する API が用意されており、これらを「部品」として組み合わせることで、高度な AI ソリューションを比較的簡単に構築できます。Generative AI Leader としては、これらの API の特性を理解し、ビジネス課題に応じて最適なものを選択・提案できる能力が求められます。

クラウドエースでは、これらの API を活用したアプリケーション開発スキルを体系的に習得できるトレーニングをご用意しています。たとえば、「Application Development with LLMs on Google Cloud」では、LLM を活用したアプリケーション開発全般を、「Introduction to Developer Efficiency with Gemini on Google Cloud」では、Gemini を中心とした開発効率化のテクニックを学ぶことができます。理論だけでなく、ハンズオンを通じて実践的なスキルを身につけたい方は、ぜひ受講をご検討ください。

次回は、 スタディガイド p.8 に進み、「AI モデルの出力を改善するためのテクニック(Techniques to improve generative AI model output)」、とくに「プロンプティング テクニック」について詳しく見ていきます。 生成 AI からよりよい結果を引き出すための「質問力」を磨いていきましょう!

お楽しみに!

▼これまでの連載はこちら

【第 1 回】Generative AI Leader 資格集中講座!Google Cloud 認定講師による日本語解説 
【第 2 回】Generative AI Leader 資格集中講座!データを制する者が AI を制す!
【第 3 回】Generative AI Leader 資格集中講座!Google Cloud の AI パワーを徹底解剖!
【第 4 回】Generative AI Leader 資格集中講座!Vertex AI・AI エージェントの活用法

クラウドエースの Google Cloud 認定トレーニングに関するお問い合わせはこちらから。
https://cloud-ace.jp/gcp-training/