Cloud Dataflow はあらゆるサイズのデータ処理タスクの実行に役立ちます。
-
Cloud Dataflow SDK を使用すると大規模なデータ処理ジョブを定義できます。
-
Cloud Dataflow サービスを使用すると、Compute Engine、Cloud Storage、BigQuery などの Google Cloud Platform リソース上でデータ処理ジョブを実行できます。
Cloud Dataflow にアクセスするには、Developers Console の左側のサイドバーで [ビッグデータ] > [Cloud Dataflow] を選択します。
はじめに以下は、cloud.google.com のセットアップ ガイドへのリンクです。
-
Cloud Dataflow とは : Dataflow SDK と Dataflow サービスの使用について説明します。
-
プロジェクト、API、SDK の設定: Dataflow に必要な API を使用して Google Cloud Platform プロジェクトを設定します。次に Google Cloud SDK をインストールし、プロジェクト用の Cloud Storage バケットを作成します。
Dataflow プログラミング モデル
-
パイプライン: パイプラインは、Dataflow SDK 内のデータ処理ジョブを表します。パイプラインをビルドするには、Dataflow SDK を使用してプログラムを作成します。パイプラインの構成要素について説明し、パイプラインの例を示します。
-
PCollection: PCollection は Dataflow SDK の特殊クラスで、パイプライン内のデータを表します。PCollection とその作成方法について説明します。
-
変換: 変換は Dataflow パイプラインのステップの 1 つで、データを変換する処理操作を表します。変換の仕組みと Dataflow SDK における変換の種類について説明します。
-
データの読み取りと書き込み: Dataflow SDK を使用して読み取りと書き込みを実行する方法について説明します。
パイプラインの作成と実行
-
パイプラインの設計: パイプライン(データ処理ジョブ)の設計方法について説明します。
-
パイプラインの作成: Dataflow SDK のクラスを使用してパイプラインを作成する方法について説明します。
-
パイプラインの実行: パイプラインの実行処理について説明します。パイプラインの実行は、Cloud Dataflow プログラムの実行とは別のものです。Cloud Dataflow プログラムでパイプラインを作成し、この作成したコードによって、パイプライン ランナーが実行する一連のステップが生成されます。パイプライン ランナーとして使用できるのは、Google Cloud Platform 上の Cloud Dataflow サービス、サードパーティのランナー サービス、またはローカル環境で直接ステップを実行するローカル パイプライン ランナーです。
パイプラインの監視、テスト、トラブルシューティング
-
監視: これらのガイドは、Cloud Dataflow マネージド サービスでパイプライン(Dataflow ジョブ)を実行した後にパイプラインを監視するのに役立ちます。
-
Dataflow 監視サービスの使用: Dataflow ジョブを含むすべてのジョブは、Dataflow のウェブベース監視ユーザー インターフェースを使用して表示できます。この監視インターフェースを使用すると、Dataflow ジョブを表示して操作することができます。
-
Dataflow コマンドライン インターフェースの使用: Dataflow コマンドライン インターフェースを使用すると、Dataflow ジョブを含むすべてのジョブに関する情報を取得できます。Dataflow コマンドライン インターフェースは Google Cloud SDK の gcloud コマンドライン ツールの一部です。
-
パイプライン メッセージのログ記録: Cloud Dataflow では、パイプライン ワーカーのログ メッセージを作成して表示し、パイプラインの監視とデバッグを行うことができます。
-
-
テスト: このガイドを使用して、個々のオブジェクト(DoFn オブジェクト)、複合変換、またはパイプライン全体をテストします。
-
トラブルシューティング: Dataflow パイプラインの作成や実行で問題が発生した場合は、このトラブルシューティングのヒントとデバッグ戦略に関する概要ガイドを使用します。
Dataflow SDK for Java
-
サンプル プログラム: Dataflow SDK for Java には
WordCount
という完全なサンプル プログラムが含まれています。このガイドを使用すると、WordCount
サンプル プログラムを作成、実行する方法を学習できます。 -
Java API リファレンス: Google Cloud Dataflow SDK Java API のパッケージを確認できます。
サポート
-
Google グループ: dataflow-announce Google グループの Cloud Dataflow に関する一般的なディスカッションにご参加ください。
-
Stack Overflow: Stack Overflow で google-cloud-dataflow のタグが付いたコンテンツをご覧ください。