- 2025年8月28日
GCP Cloud Data Fusionとは?超わかりやすい解説
データ分析の現場では、「ノーコードで素早くETLを形にする」ことがますます重要になっています。GCP の Cloud Data Fusion は、GUI 上でソース接続・変換・ロードまでをつなぐことで、SQL やスクリプトを書かずに 実運用レベルのデ […]
データ分析の現場では、「ノーコードで素早くETLを形にする」ことがますます重要になっています。GCP の Cloud Data Fusion は、GUI 上でソース接続・変換・ロードまでをつなぐことで、SQL やスクリプトを書かずに 実運用レベルのデ […]
ビッグデータ時代と呼ばれて久しい今日、企業や研究機関では膨大な量のデータを扱うことが当たり前になっています。 しかし、通常のPCや1台のサーバーで処理できるデータ量には限界があります。そこで登場するのが「分散処理」という考え方です。複数のコンピュータ […]
そもそもAPIってなに? API(エーピーアイ)は Application Programming Interface の略で、日本語では「アプリケーションとアプリケーションをつなぐ窓口」と言えます。ちょっと難しく聞こえますが、要は「プログラム同士を […]
PySparkとは? PySpark(パイスパーク)とは、分散処理エンジン 「Apache Spark をPythonから利用できるライブラリ」です。SparkはJavaやScalaで開発されていますが、データ分析分野ではPythonが広く使われてい […]
Sparkとは? Apache Spark(スパーク)は、「大規模データを高速に処理するための分散処理フレームワーク」です。従来のHadoop MapReduceに比べて圧倒的に高速で柔軟性が高く、現在では分散処理基盤の代表格として幅広く利用されてい […]
そもそも分散処理とは? 近年のデータ分析では、1 台のコンピュータでは扱いきれない膨大なデータを処理する必要があります。 そこで登場するのが 分散処理 です。これは「大量のデータを複数のコンピュータに分散して並列処理する仕組み」のことを指します。 イ […]
Databricksとは? Databricksは、Apache Sparkの開発者たちによって構築されたクラウド上の統合分析プラットフォームです。簡単に言えば、ビッグデータの保存、クレンジング、処理、分析、さらには機械学習モデルの構築までを1つの […]
はじめに Azure Data Factory(ADF)は、Microsoft Azureが提供するクラウドベースのETL/データ統合サービスです。AWS Glueと同様に、GUIを使ってノーコードまたはローコードでETLパイプラインを設計・実行でき […]
みなさんこんにちわ!研究所です! クラウドとデータ基盤の活用は企業ITの主軸となり、AWS、Azure、GCPなど主要クラウドの認定資格は即戦力証明として採用でかなり有効です!そこで、本記事では【体験学習】【教科書的理解】【過去問反復】という3つの手 […]
はじめに 本記事では、AWSのサーバレスETLサービスである AWS Glue のハンズオン実践内容を整理し、同様の機能を持つ Azure Data Factory(ADF) との類似点にも触れながら解説していきます。筆者はプロジェクトでADFを活用 […]