Azure Data Factoryとは?Glueとの違いから学ぶデータ統合サービスの全体像について

はじめに

Azure Data Factory(ADF)は、Microsoft Azureが提供するクラウドベースのETL/データ統合サービスです。AWS Glueと同様に、GUIを使ってノーコードまたはローコードでETLパイプラインを設計・実行できる点が特長です。

この記事では、ADFの基本構成、主なコンポーネント、Glueとの違いや共通点を交えて、初心者にもわかりやすく解説します。

Azure ADFとは?何をするためのもの?

ADFは、クラウドやオンプレミスに点在する様々なデータソースから、データを抽出・変換・格納(ETL)するためのオーケストレーションサービスです。

ものすごく簡単に言うと

バラバラな場所(S3・DB・CSVなど)にあるデータを、集めて、加工して、キレイに整理して、次のシステムに渡す仕事をしてくれるクラウド上の自動処理の工場

データを抽出・変換する自動化プラットフォームとしてAWSのGlueが有名ですね。

ADFのコンポーネント構成

Azure Data Factoryは以下のようなコンポーネントで構成されます。

1. パイプライン(Pipeline)

  • ETL処理の“全体の流れ”を定義する単位
  • 複数のアクティビティ(処理ステップ)を連結し、依存関係や並列処理も指定可能

2. アクティビティ(Activity)

  • パイプライン内の「処理ステップ」
  • 例:データコピー、SQL実行、データフロー実行、Databricksノートブック起動など

3. データセット(Dataset)

  • 入出力するデータの構造や場所を定義するオブジェクト
  • 例:Blob Storage上のCSV、SQL Databaseのテーブルなど

4. リンクサービス(Linked Service)

  • データソース/シンクへの接続情報を保持する
  • AWSで言うところの「接続プロファイル」に相当

5. トリガー(Trigger)

  • パイプラインの実行タイミングを定義(スケジュール、イベント、手動)

6. データフロー(Data Flow)

  • GUIで作成できるビジュアルなETL処理ステップ
  • Sparkベースで動作し、大量データ処理にも対応

Glueとの違いと共通点

比較項目Azure Data FactoryAWS Glue
処理方式GUI中心のワークフロー構成GUI + コード(PySpark)対応
実行エンジンSparkベース(Data Flow) or SSISSparkベース
トリガー方式スケジュール/イベント/Webhookスケジュール/イベント
データカタログPurview/Data CatalogGlue Data Catalog
拡張性DatabricksやSynapseと統合しやすいRedshiftやAthenaと親和性高い

ADFの活用シナリオ例

  • Azure BlobからSynapseにデータをロード(ELT)
  • オンプレSQLからクラウドDBへデータ移行
  • 複雑なETL処理をGUIでデザインして定期実行
  • データ品質チェック付きのパイプライン構築

まとめ

Azure Data Factoryは、GUI操作で視覚的にパイプラインを構築し、さまざまなソース間でETLを自動化できる強力なサービスです。AWS Glueと同様の思想で構築されており、マルチクラウドのデータ統合を考える上でも理解しておくべき存在です。

GUIベースでのETL構築が得意な方、Azureに既に環境がある方には、ADFは非常に親和性の高い選択肢となるでしょう。

最新情報をチェックしよう!