- 2025年8月12日
Apack Spark開発者によって作られてクラウド型統合分析プラットフォーム「Databricks」とは?
Databricksとは? Databricksは、Apache Sparkの開発者たちによって構築されたクラウド上の統合分析プラットフォームです。簡単に言えば、ビッグデータの保存、クレンジング、処理、分析、さらには機械学習モデルの構築までを1つの […]
データ分析基盤に関するトピックになります。
Databricksとは? Databricksは、Apache Sparkの開発者たちによって構築されたクラウド上の統合分析プラットフォームです。簡単に言えば、ビッグデータの保存、クレンジング、処理、分析、さらには機械学習モデルの構築までを1つの […]
GCP Dataprocとは? GCP Dataprocは、Google Cloud上でApache SparkやApache Hadoopなどのオープンソースビッグデータ処理フレームワークを、簡単かつ高速に実行できるマネージドサービスです。これによ […]
dbtプロジェクトの設定について dbtで処理を進めていくためには、dbtプロジェクトを作成・設定していきます。 下記のような形でdbtのディレクトリに「dbt_project.yml」を用意します。 dbt_project.ymlの中身は、下記のよ […]
データエンジニアリングにおけるETL処理において、DWに存在するデータに対してT(Transform)の処理を実施するツールとしてdbt(data build tool)が有名です。 dbtにおいて、整形するSQL文を柔軟に記述できる方法としてJ […]
データエンジアリングの領域でIceberg(アイスバーグ)という技術をよく聞きます。これは、大量のデータ(ビックデータ)を効率よく扱う(高速で一貫性のあるクエリ)ためのオープンソースのテーブル形式なんですね。 https://iceberg.apa […]
dbt(Data Build Tool) は、データウェアハウス内の変換処理(Transform)をコード化し、テスト・ドキュメント・バージョン管理を備える、データチーム共通の変換パイプラインフレームワークです。この記事で概要をレビューします。 1. […]
BigQueryとは? Google の 完全マネージドなサーバレス型データウェアハウスで、ペタバイト規模の分析をSQLで高速実行可能なのが特徴です。インフラ管理不要で、ストレージと計算が分離された設計により、柔軟なスケーリングとコスト制御が実現され […]
1. dbtとは?──ELTの“T”に特化した変換ツール 従来のデータ処理は「ETL(Extract → Transform → Load)」が主流でしたが、クラウドデータウェアハウスの進化により、処理の流れは「ELT(Extract → Load […]
Snowparkを学ぶにあたりSnowpark MLについても概要を触れていきたいと思います。Snowflake はデータウェアハウスであると同時に、Snowpark ML を用いることで 機械学習モデルのトレーニングや推論も内部で実行することができ […]