クラウド・データ用語集:データ基盤編(超わかりやすく・実務向け)

データエンジニア/インフラエンジニア向けに、クラウド時代のデータ基盤で頻出の用語を“噛み砕いて”整理しました。中級者〜プロが使う専門語も載せつつ、説明はできるだけ平易にしています。GCP・AWS・Azureでの使われ方も意識してあります。

DWH(データウェアハウス)

データを長期・安定的にためて、高速集計やBIに使うための「整った倉庫」。あらかじめスキーマを決めて格納(スキーマオンライト)するのが基本。クラウドでは BigQuery(GCP)、Amazon Redshift(AWS)、Azure Synapse、Snowflake が代表格。どれも大量並列処理(MPP)で速い。

  • データウェアハウス(DWH)
    構造化データを整形して保存する集中倉庫。確定データを履歴で持ち、分析に最適化。
  • データマート
    部門別の小さな“取り出し口”。営業向け・マーケ向けなど用途限定で軽く速い。
  • ODS(Operational Data Store)
    業務システムの“最新データ置き場”。短期保持・更新あり。速報や日常業務連携に使う。

ETL / ELT(データの流し込み・変換)

  • ETL(Extract-Transform-Load)
    取り出す→変換する→入れる。取り込み前にきれいにしてからDWHへ。オンプレ時代の王道。
    代表サービス:AWS Glue、Azure Data Factory、Cloud Dataflow など。
  • ELT(Extract-Load-Transform)
    まず全部入れる→必要なときに中で変換。クラウドDWHの計算力を活用。可変要件に強い。
    代表ツール:dbt(SQLで変換を管理)、ビュー/マテビュー、タスクスケジューラ連携。
  • リバースETL
    DWHにたまった分析用データを、SaaS(CRM、MA)へ“戻す”配信。現場活用を加速。

データレイク / レイクハウス

  • データレイク
    ありのままを安価に大量保管する湖。S3 / GCS / ADLS などのオブジェクトストレージに、CSV/JSON/Parquetなどで保存。後から必要な分だけ読み出して整形(スキーマオンリード)。放置すると“データ沼”になりやすいので、カタログや品質管理は必須。
  • レイクハウス
    レイクの柔軟さ+DWHの厳密さを“同じ湖の上”で両立させる考え方。ACID・タイムトラベル・スキーマ進化を追加して、SQLで速く・安全に扱えるようにする。

レイクハウス主要テーブル形式

混同しやすい三兄弟。どれも“データレイク上にDWH級の管理をもたらす”ための表形式です。

  • Delta Lake(データブリックス発)
    Parquetの上にトランザクションログ(_delta_log)。アップサート・タイムトラベル・スキーマ進化が簡単。Databricks最適、OSS版もあり。
  • Apache Iceberg(アイスバーグ)
    大規模テーブル向け。メタデータ階層やスナップショット管理が強力。各エンジン(Spark/Trino/Flink/Snowflake/BigQuery外部など)に広く対応。デカいデータの運用が安定。
  • Apache Hudi(フーディ)
    変更キャプチャ(UPSERT/DELETE)と増分読みに強い。CDCやストリーミング連携が得意。

ざっくり使い分け:
「Databricks前提・開発体験重視→Delta」「エンジン横断・長期運用の安定感→Iceberg」「CDCや増分処理の即戦力→Hudi」

分散処理とデータ分割

  • 分散処理
    Spark/Presto/Trino などで複数ノードに並列実行。クラウドはスケールアウトが容易。計算とストレージを分離して必要時だけクラスターを起動。
  • パーティショニング
    日付や範囲でテーブル・ファイルを分割。不要領域を読まない=速い・安い。BigQueryのパーティション/クラスタリング、S3の「year=…/month=…」配置など。
  • シャーディング
    データを複数サーバに水平分割。超巨大DBをスケールさせる設計。再均衡やシャード間結合が難所。

メタデータ管理 / データカタログ

  • メタデータ
    「このテーブルは何?誰が管理?いつ更新?」を示す“データの説明書”。なければレイクは沼化する。
  • データカタログ
    社内データの“辞書・電話帳”。検索・説明・サンプル・所有者・リネージを一元化。
    代表:AWS Glue Data Catalog、Google Dataplex(Data Catalog)、Microsoft Purview、Collibra、Alation、DataHub、Apache Atlas。

データ品質 / リネージ / ガバナンス

  • データ品質
    正確性・完全性・一貫性・最新性など。品質は“使えるかどうか”。Great Expectations などで自動テストを回すと運用が安定。
  • データリネージ
    「どこから来て、どう変換され、どこへ行ったか」の流れ。監査・原因追跡・影響分析に必須。OpenLineage対応ツールが増加。
  • データガバナンス
    ルール・役割・プロセスで“攻め(活用)と守り(安全)”を両立。IAM/暗号化/監査・用語統一・所有者明確化・ポリシー運用が柱。

オーケストレーション(ワークフロー管理)

  • Apache Airflow
    PythonでDAG(処理の依存関係)をコード化してスケジュール実行。エコシステムが巨大。AWS MWAA / GCP Composer などマネージドもあり。
  • Dagster
    タスクではなく“データ資産”を中心に組み立てる新世代。型や検証を重視し、パイプラインの見通しが良い。

ストレージフォーマット

  • Parquet
    列指向・高圧縮・必要列だけ読む。まずはこれが標準。
  • ORC
    列指向・統計情報リッチで読み取り最適。Hive互換環境で有利なことが多い。
  • Avro
    行指向・スキーマ埋め込みで“スキーマ進化”に強い。イベント・ストリームや中間形式に好適。最終保存はParquet/ORCにするのが定石。

クエリエンジン / DWHサービス

  • Presto(PrestoDB)
    各種データソースへ“その場で”分散SQL。Athenaの中身としても有名。
  • Trino
    Presto系の進化版。大規模クエリの安定性・最適化が強化。コネクタ豊富。
  • BigQuery
    GCPのサーバーレスDWH。SQL投げるだけで巨大データを高速集計。外部テーブルも柔軟。
  • Snowflake
    物理ストレージと計算を完全分離。用途別に仮想ウェアハウスを増減しながら“チューニング少なめで速い”。

Databricks とその周辺(Delta Lake / MLflow)

  • Databricks
    Sparkを核にした“レイクハウスの実行基盤”。ノートブック(Python/SQL)でETL/ELT・機械学習・BIまで一体運用。ジョブ管理・クラスター自動スケール・Unity Catalog(権限/リネージ/ガバナンス)など、チーム開発の土台が整っている。
  • Delta Lake
    Databricks発のレイクハウス表形式。Parquet+トランザクションログでACID・タイムトラベル・スキーマ進化を提供。アップサートやストリーミングと相性が良い。OSSとして単体利用も可能。
  • MLflow
    実験管理(パラメータ・メトリクス・アーティファクトの記録)、モデルレジストリ(ステージ遷移・承認)、モデルのパッケージ化とデプロイ(MLflow Models/Serving)を標準化するOSS。Databricksと親和性が高いが、単体でも使える。
    現場目線での効用:誰がどのデータ・コードで学習し、どのモデルが本番かを一元管理できる=“再現性と引き継ぎ”が楽になる。
  • Iceberg × Databricks
    DatabricksはDeltaが本筋だが、Unity Catalog経由でIcebergの取り扱いも拡大中。マルチエンジン要件が強い環境ではIceberg採用も現実的。

最新情報をチェックしよう!