Professional Data Engineer 認定試験模擬試験解説前編

公開：2021/04/27 更新：2023/11/08

Google Cloud

Professional Data Engineer 認定試験模擬試験解説前編

この記事では、GCPの認定試験であるProfessional Data Engineerの模擬試験の解説をします。
模擬試験終了後に簡易的な解説は表示されますが、もっと汎用的な関連知識を深めることを目的としています。

設問1:標準SQLとBigQueryのデータインポートに関する出題

ANSI SQLとはBigQueryの文脈では標準SQLと呼ばれる規格化されたSQLのことです。
BigQueryは従来少し独特なSQLが使われていて、今でもレガシーSQLという形で利用することができます。
MySQLなどで利用できる標準SQLをそのままBigQueryでも利用できるというのがBigQueryの長所の1つです。
BigQuery固有のSQLは今でもレガシーSQLとして残っています。

SQLを利用するために、ストレージにはBigQueryを利用する必要があり、JSONをインポートする際にスキーマの自動検出を有効にすることで、変更されるスキーマにも対応することができます。
スキーマを自動検出するには、テーブル作成時にチェックボックスをONにするだけです。

設問2:DataprocクラスタのライフタイムとGCSとの連携に関する出題

Dataprocでよく問われるポイントは、「1つのクラスタでは1つのジョブを実行し、クラスタのライフタイムはジョブの実行が終わるまで」です。
Dataprocを利用すればクラスタはいつでも用意できるので、クラスタを保持し続ける必要がありません。
そのため、1つのクラスタで複数のジョブを実行するような用途は試験の回答としては不適切です。

また、DataprocはCloud Storageのファイルを利用できますし、BigQueryはParquet形式のファイルをインポートすることができます。
BigQueryがインポートできるファイル形式は、CSV, Avro, JSON, Parquet, ORCです。

設問3:標準SQLの定義済み関数に関する出題

次のクエリをBigQueryで実行してみます。

WITH Numbers AS (
  SELECT 1 as x
  UNION ALL SELECT 3
  UNION ALL SELECT 3
  UNION ALL SELECT 4
  UNION ALL SELECT 8
  UNION ALL SELECT 10
  UNION ALL SELECT 10
),

Rownums AS (
  SELECT *,
  ROW_NUMBER() OVER (PARTITION BY x ORDER BY x ASC) AS row_num
  FROM Numbers
)
SELECT * FROM Rownums;

x	row_num
1	1
3	1
3	2
4	1
8	1
10	1
10	2

ROW_NUMBER()とPARTITION BYを利用すれば、カラムxの値の出現回数をカウントすることができます。
つまり、 WHERE row_num = 1の条件を加えることで、xの重複を排除することができます。

設問4:Dataflowの各ウィンドウ集計の特徴に関する出題

Dataflowのセッションウィンドウを利用すると、任意のKey毎にデータを集計することができるため、この特徴がプレーヤー毎の集計に役立ちます。
グローバルウィンドウでは時間ベースの集計しかできないため、プレーヤー毎の集計をするのであればセッションウィンドウの方が適しています。
次の図はセッションウィンドウのイメージです。

セッションウィンドウでは、データの集計単位はギャップ時間に依存しています。
最小ギャップ時間を15分と設定した場合、最後にデータが到着したタイミングから15分以内に到着したデータは同じウィンドウ内のデータになります。
つまり、15分遅れて配信されたデータであっても同じウィンドウで集計することができます。

設問5:BigQueryのデータインポートに関する出題

特に追加で解説することがないのですが、全てのデータが正常にインポートできたということから、エラーが発生する選択肢を除けば良いだけです。

設問6:HadoopジョブのGCPへの移行に関する出題

Hadoopジョブを再利用するのであればDataprocを利用します。
逆に、新規にETLジョブを構築するのであればDataflowを利用する選択肢を選びましょう。
Dataprocのクラスタはジョブが終われば破棄されることが前提のため、データをCloud Storageへ保存してクラスタのライフタイムに依存しないようにしましょう。