- 2025年8月18日
PySparkとは?SparkをPythonで扱うメリットと活用方法について
PySparkとは? PySpark(パイスパーク)とは、分散処理エンジン 「Apache Spark をPythonから利用できるライブラリ」です。SparkはJavaやScalaで開発されていますが、データ分析分野ではPythonが広く使われてい […]
PySparkとは? PySpark(パイスパーク)とは、分散処理エンジン 「Apache Spark をPythonから利用できるライブラリ」です。SparkはJavaやScalaで開発されていますが、データ分析分野ではPythonが広く使われてい […]
Sparkとは? Apache Spark(スパーク)は、「大規模データを高速に処理するための分散処理フレームワーク」です。従来のHadoop MapReduceに比べて圧倒的に高速で柔軟性が高く、現在では分散処理基盤の代表格として幅広く利用されてい […]
そもそも分散処理とは? 近年のデータ分析では、1 台のコンピュータでは扱いきれない膨大なデータを処理する必要があります。 そこで登場するのが 分散処理 です。これは「大量のデータを複数のコンピュータに分散して並列処理する仕組み」のことを指します。 イ […]
Databricksとは? Databricksは、Apache Sparkの開発者たちによって構築されたクラウド上の統合分析プラットフォームです。簡単に言えば、ビッグデータの保存、クレンジング、処理、分析、さらには機械学習モデルの構築までを1つの […]
はじめに Azure Data Factory(ADF)は、Microsoft Azureが提供するクラウドベースのETL/データ統合サービスです。AWS Glueと同様に、GUIを使ってノーコードまたはローコードでETLパイプラインを設計・実行でき […]
はじめに 本記事では、AWSのサーバレスETLサービスである AWS Glue のハンズオン実践内容を整理し、同様の機能を持つ Azure Data Factory(ADF) との類似点にも触れながら解説していきます。筆者はプロジェクトでADFを活用 […]
ここではAWS Glueを使ったETL構築の流れを整理し、Azure Data Factory(ADF)との共通点・相違点を明確にします。Glue を使った基盤構築に取り組む第一歩として、記事を読み進めてください。 1. AWS Glue とは? そ […]
はじめに 本記事では、GCP DataprocでのSparkクラスタ作成とPySparkジョブの実行を実際に行い、その手順と注意点を整理していきたいと思います。 Dataprocは、Apache SparkやHadoopなどのオープンソース分散処理フ […]
GCP Dataprocとは? GCP Dataprocは、Google Cloud上でApache SparkやApache Hadoopなどのオープンソースビッグデータ処理フレームワークを、簡単かつ高速に実行できるマネージドサービスです。これによ […]
dbtプロジェクトの設定について dbtで処理を進めていくためには、dbtプロジェクトを作成・設定していきます。 下記のような形でdbtのディレクトリに「dbt_project.yml」を用意します。 dbt_project.ymlの中身は、下記のよ […]