クラウド・データ用語集：データ基盤編（超わかりやすく・実務向け）

2025年9月17日
2025年9月17日
資格・学習

資格・学習

データエンジニア／インフラエンジニア向けに、クラウド時代のデータ基盤で頻出の用語を“噛み砕いて”整理しました。中級者〜プロが使う専門語も載せつつ、説明はできるだけ平易にしています。GCP・AWS・Azureでの使われ方も意識してあります。

1 DWH（データウェアハウス）
2 ETL / ELT（データの流し込み・変換）
3 データレイク / レイクハウス
- 3.1 レイクハウス主要テーブル形式
4 分散処理とデータ分割
5 メタデータ管理 / データカタログ
6 データ品質 / リネージ / ガバナンス
7 オーケストレーション（ワークフロー管理）
8 ストレージフォーマット
9 クエリエンジン / DWHサービス
10 Databricks とその周辺（Delta Lake / MLflow）

Table of Contents

DWH（データウェアハウス）

データを長期・安定的にためて、高速集計やBIに使うための「整った倉庫」。あらかじめスキーマを決めて格納（スキーマオンライト）するのが基本。クラウドでは BigQuery（GCP）、Amazon Redshift（AWS）、Azure Synapse、Snowflake が代表格。どれも大量並列処理（MPP）で速い。

データウェアハウス（DWH）
構造化データを整形して保存する集中倉庫。確定データを履歴で持ち、分析に最適化。
データマート
部門別の小さな“取り出し口”。営業向け・マーケ向けなど用途限定で軽く速い。
ODS（Operational Data Store）
業務システムの“最新データ置き場”。短期保持・更新あり。速報や日常業務連携に使う。

ETL / ELT（データの流し込み・変換）

ETL（Extract-Transform-Load）
取り出す→変換する→入れる。取り込み前にきれいにしてからDWHへ。オンプレ時代の王道。
代表サービス：AWS Glue、Azure Data Factory、Cloud Dataflow など。
ELT（Extract-Load-Transform）
まず全部入れる→必要なときに中で変換。クラウドDWHの計算力を活用。可変要件に強い。
代表ツール：dbt（SQLで変換を管理）、ビュー／マテビュー、タスクスケジューラ連携。
リバースETL
DWHにたまった分析用データを、SaaS（CRM、MA）へ“戻す”配信。現場活用を加速。

データレイク / レイクハウス

データレイク
ありのままを安価に大量保管する湖。S3 / GCS / ADLS などのオブジェクトストレージに、CSV/JSON/Parquetなどで保存。後から必要な分だけ読み出して整形（スキーマオンリード）。放置すると“データ沼”になりやすいので、カタログや品質管理は必須。
レイクハウス
レイクの柔軟さ＋DWHの厳密さを“同じ湖の上”で両立させる考え方。ACID・タイムトラベル・スキーマ進化を追加して、SQLで速く・安全に扱えるようにする。

レイクハウス主要テーブル形式

混同しやすい三兄弟。どれも“データレイク上にDWH級の管理をもたらす”ための表形式です。

Delta Lake（データブリックス発）
Parquetの上にトランザクションログ（_delta_log）。アップサート・タイムトラベル・スキーマ進化が簡単。Databricks最適、OSS版もあり。
Apache Iceberg（アイスバーグ）
大規模テーブル向け。メタデータ階層やスナップショット管理が強力。各エンジン（Spark/Trino/Flink/Snowflake/BigQuery外部など）に広く対応。デカいデータの運用が安定。
Apache Hudi（フーディ）
変更キャプチャ（UPSERT/DELETE）と増分読みに強い。CDCやストリーミング連携が得意。

ざっくり使い分け：
「Databricks前提・開発体験重視→Delta」「エンジン横断・長期運用の安定感→Iceberg」「CDCや増分処理の即戦力→Hudi」

分散処理とデータ分割

分散処理
Spark/Presto/Trino などで複数ノードに並列実行。クラウドはスケールアウトが容易。計算とストレージを分離して必要時だけクラスターを起動。
パーティショニング
日付や範囲でテーブル・ファイルを分割。不要領域を読まない＝速い・安い。BigQueryのパーティション/クラスタリング、S3の「year=…/month=…」配置など。
シャーディング
データを複数サーバに水平分割。超巨大DBをスケールさせる設計。再均衡やシャード間結合が難所。

メタデータ管理 / データカタログ

メタデータ
「このテーブルは何？誰が管理？いつ更新？」を示す“データの説明書”。なければレイクは沼化する。
データカタログ
社内データの“辞書・電話帳”。検索・説明・サンプル・所有者・リネージを一元化。
代表：AWS Glue Data Catalog、Google Dataplex（Data Catalog）、Microsoft Purview、Collibra、Alation、DataHub、Apache Atlas。

データ品質 / リネージ / ガバナンス

データ品質
正確性・完全性・一貫性・最新性など。品質は“使えるかどうか”。Great Expectations などで自動テストを回すと運用が安定。
データリネージ
「どこから来て、どう変換され、どこへ行ったか」の流れ。監査・原因追跡・影響分析に必須。OpenLineage対応ツールが増加。
データガバナンス
ルール・役割・プロセスで“攻め（活用）と守り（安全）”を両立。IAM/暗号化/監査・用語統一・所有者明確化・ポリシー運用が柱。

オーケストレーション（ワークフロー管理）

Apache Airflow
PythonでDAG（処理の依存関係）をコード化してスケジュール実行。エコシステムが巨大。AWS MWAA / GCP Composer などマネージドもあり。
Dagster
タスクではなく“データ資産”を中心に組み立てる新世代。型や検証を重視し、パイプラインの見通しが良い。

ストレージフォーマット

Parquet
列指向・高圧縮・必要列だけ読む。まずはこれが標準。
ORC
列指向・統計情報リッチで読み取り最適。Hive互換環境で有利なことが多い。
Avro
行指向・スキーマ埋め込みで“スキーマ進化”に強い。イベント・ストリームや中間形式に好適。最終保存はParquet/ORCにするのが定石。

クエリエンジン / DWHサービス

Presto（PrestoDB）
各種データソースへ“その場で”分散SQL。Athenaの中身としても有名。
Trino
Presto系の進化版。大規模クエリの安定性・最適化が強化。コネクタ豊富。
BigQuery
GCPのサーバーレスDWH。SQL投げるだけで巨大データを高速集計。外部テーブルも柔軟。
Snowflake
物理ストレージと計算を完全分離。用途別に仮想ウェアハウスを増減しながら“チューニング少なめで速い”。

超わかりやすくSnowflake 関連用語を見ていきましょう

Databricks とその周辺（Delta Lake / MLflow）

Databricks
Sparkを核にした“レイクハウスの実行基盤”。ノートブック（Python/SQL）でETL/ELT・機械学習・BIまで一体運用。ジョブ管理・クラスター自動スケール・Unity Catalog（権限/リネージ/ガバナンス）など、チーム開発の土台が整っている。
Delta Lake
Databricks発のレイクハウス表形式。Parquet＋トランザクションログでACID・タイムトラベル・スキーマ進化を提供。アップサートやストリーミングと相性が良い。OSSとして単体利用も可能。
MLflow
実験管理（パラメータ・メトリクス・アーティファクトの記録）、モデルレジストリ（ステージ遷移・承認）、モデルのパッケージ化とデプロイ（MLflow Models/Serving）を標準化するOSS。Databricksと親和性が高いが、単体でも使える。
現場目線での効用：誰がどのデータ・コードで学習し、どのモデルが本番かを一元管理できる＝“再現性と引き継ぎ”が楽になる。
Iceberg × Databricks
DatabricksはDeltaが本筋だが、Unity Catalog経由でIcebergの取り扱いも拡大中。マルチエンジン要件が強い環境ではIceberg採用も現実的。

最新情報をチェックしよう！

フォローする