データ分析の現場では、「ノーコードで素早くETLを形にする」ことがますます重要になっています。GCP の Cloud Data Fusion は、GUI 上でソース接続・変換・ロードまでをつなぐことで、SQL やスクリプトを書かずに 実運用レベルのデータパイプラインを構築できるサービスです。
本記事では、類似サービス(Cloud Composer / Azure Data Factory / AWS Glue)との違いを押さえつつ、Wrangler → Joiner → BigQuery までの一連の流れを図解でやさしく見ていきたいと思います。
目次
Table of Contents
Cloud Data Fusionとは
Cloud Data Fusion(クラウド データフュージョン) は、Google Cloud が提供する フルマネージド型のデータ統合サービス です。
特徴を簡単にまとめると:
- GUIベースで操作可能:ドラッグ&ドロップでデータパイプラインを設計
- ノーコード/ローコードで開発可能:SQLやスクリプトを書かなくてもデータ変換ができる
- オープンソースCDAP(Cask Data Application Platform)ベース:実績のあるOSSを基盤に採用
- Sparkで実行:作成した処理はバックエンドでApache Sparkアプリケーションとして動く(クラスタ管理はGoogleが実施)
- 豊富なコネクタ・変換処理:オンプレやクラウドのデータソースに接続でき、フィルタリング・結合・型変換・欠損値処理・重複排除などに対応
つまり「SQLやコードを書かなくてもデータを統合して加工し、分析基盤に流し込めるツール」です。
どんなときに使うのか?
- 定型的なETL(Extract・Transform・Load)処理を組みたいとき
→ 例えば「CSVを読み込んでクリーニングし、BigQueryに格納する」といった処理。 - エンジニアだけでなく、アナリストやデータ担当者も使いたいとき
→ GUIで直感的に操作できるため、SQLやPythonが書けなくても扱える。 - オンプレ・他クラウドとのデータ連携をしたいとき
→ JDBCコネクタや各種プラグインを使って接続可能。
他のサービスとの違い
1. Cloud Composer(GCP, Apache Airflowベース)
- 役割:ワークフロー全体のオーケストレーション(タスクスケジューリング・依存関係管理)
- 特徴:Pythonコードで柔軟に制御できる
- 違い:Data Fusionは「データの加工がメイン」、Composerは「処理の順序・全体管理がメイン」
- 使い分け:Data Fusionで作ったETL処理を、Composerのワークフローの一部として呼び出すのが典型的。
2. Azure Data Factory(ADF)
- 提供元:Microsoft Azure
- 共通点:GUIでデータパイプラインを作成、豊富なコネクタを提供
- 違い:ADFはAzureの各種サービス(Synapse Analytics, Data Lake等)と強く統合
- イメージ:Data Fusionの「Azure版」
3. AWS Glue
- 提供元:Amazon Web Services
- 特徴:サーバレスのETLサービス。Python(PySpark)ベースで柔軟に記述可能
- 違い:ノーコードよりも「コードによる高度な制御」に強み
- ユースケース:Glue Studioを使えばGUI操作も可能だが、本格的なユーザーはコードで書くケースが多い
まとめ(サービス比較表)
それぞれのクラウドサービスとの役割や特徴をまとめると下記のような感じですね!
サービス名 | 提供クラウド | 主な役割 | 特徴 |
---|---|---|---|
Cloud Data Fusion | GCP | GUIでデータ統合(ETL) | Sparkベース、ノーコードで処理可能、豊富なプラグイン |
Cloud Composer | GCP | ワークフロー全体管理 | Apache Airflowベース、複雑な依存関係管理に強い |
Azure Data Factory | Azure | データ統合(ETL) | GUIベース、Azureサービスとの統合が強力 |
AWS Glue | AWS | サーバレスETL | PySparkベースで柔軟にコーディング可能、コード派に人気 |
最後に
- Cloud Data Fusion は「ノーコードでETLを組みたい人向け」
- Cloud Composer は「ワークフロー全体を管理したい人向け」
- Azure Data Factory / AWS Glue は「各クラウド環境に特化してETLを組みたい人向け」
これらを組み合わせることで、企業はクラウド環境に合わせた最適なデータ基盤を構築できるようになります。