ここではAWS Glueを使ったETL構築の流れを整理し、Azure Data Factory(ADF)との共通点・相違点を明確にします。Glue を使った基盤構築に取り組む第一歩として、記事を読み進めてください。
Table of Contents
1. AWS Glue とは?
そもそもGlueとは、なんでしょうか。わかりやすく説明すると
バラバラな場所(S3・DB・CSVなど)にあるデータを、集めて、加工して、キレイに整理して、次のシステムに渡す仕事をしてくれるクラウド上の自動処理の工場です。下記のような特徴があります。

- サーバーレス ETL サービス
Apache Spark ベースで動作し、サーバの管理不要。 - 視覚的なデータパイプライン管理
データパイプラインを視覚的に作成、実行、モニタリングして、データをデータレイク、データウェアハウス、レイクハウスにロードできます - データカタログ機能
クロールによりデータソースのメタデータを収集し、Athena/Redshiftなどと連携しやすくします。クロールとは、データの中身を自動で見に行ってどのような構造・形式なのかを調査する仕組みの事です。 - ETL ワークフローの簡略化
ジョブの推測、展開、モニタリングが容易で、保守性も高められます。
下記はGlueのGUIの画面ですが、データ元、処理のアクティビティ、データの配置先を視覚的に直観的に設定することができる点も特徴的です。

2. ハンズオン概要
AWS Glueの簡単なハンズオンを下記の記事でご紹介しています。データレイクとデータウェアハウスはS3ストレージを使用してハンズオンしています。
- S3 にデータレイクを構築し、データの ETL 処理を Glue で実行。
- GUI ベースで設定可能な点が、Azure ADF と似ているとされています。
- データパイプライン全体をサーバレスで構成できる点が特長です。
Glue と EMR の使い分け
AWS Glue は、サーバレスな ETL 処理に最適化されたサービスで、スキーマ自動検出・ジョブ管理・カタログ整備などが一体化されており、データ準備の初手として非常に便利です。一方、Amazon EMR は Apache Hadoop や Spark を用いたカスタマイズ性の高い大規模処理に対応し、高性能・柔軟なクラスター構成を求める場面で威力を発揮します。
Glue が向いているケース
- 初期設定・インフラ構築の負荷を減らしたい
- ETL をすぐ立ち上げて実行したい
- データカタログや自動化処理を重視する
EMR が向いているケース
- 大規模データ分析や機械学習処理を行う
- カスタムライブラリや独自フレームワークを使いたい
- パフォーマンスや柔軟性を細かく制御したい
さらに、Glue は単独で有効ですが、高頻度の大規模処理が必要な際には EMR と組み合わせて使われることも多いです。たとえば、Glue で軽量な ETL を実施し、そのデータを EMR クラスターで大量処理するといったデータパイプライン構成も一般的です
特性 | AWS Glue | Amazon EMR |
---|---|---|
サービス形態 | Serverless(サーバレス)、インフラ管理不要 | EC2クラスタベース、インフラ管理が必要 ) |
主な用途 | シンプルなETLワークフロー、自動スキーマ検出、メタデータカタログ整備に最適 | 大規模データ処理、機械学習、Hadoop/Sparkなどのカスタマイズに強い |
利便性 | 初期設定や運用コストを抑えたい初心者や小規模向け | 高度なオンデマンド構成やパフォーマンス調整が必要なケースに適す |
コスト構造 | 従量課金・実行時間に応じて柔軟課金(DPUベース) | インスタンスタイプにより価格変動。長期クラスタではコスト効率良し |
パフォーマンス | シンプルなETLには高速、運用負荷低め | 一時的または永続クラスタでの大規模処理に最適。速度と安定性抜群 |
AWSのEMRは、Google Cloudの「Dataproc」のサービスと類似しています。「Dataproc」はこちら。
3. AWS Glue vs ADF(Azure Data Factory)
MicrosoftのAzureのクラウドサービスにも同様にETL処理の統合プラットフォームとしてADF(Azure Data Factory)があります。サービス名に「工場」がついてるので、データの自動処理の工場というイメージがつきやすいですね。
下記にAWS GlueとADFの簡単に比較をまとめてあります。
比較項目 | AWS Glue | Azure Data Factory (ADF) |
---|---|---|
プラットフォーム | AWS エコシステム中心(S3, Athena, Redshift 等) | Azure エコシステム中心(Blob, Synapse, Data Lake 等) |
管理形態 | サーバレス・フルマネージド | GUI ワークフロー設計・スケジュールトリガー対応 |
データカタログ | Glue Data Catalog による統合管理 | Azure Purview や Data Catalog による管理可能 |
実行エンジン | Apache Spark ベースでの ETL | ADF 内の Data Flow (Spark) または Databricks に委譲 |
コード方式 | Python/Scala スクリプト or GUI ベース | GUI ワークフローが主体、コード生成も可能 |
Microsoft AzureのADFについてはこちら。