CATEGORY

分散処理

データ分析に関する分散処理に関するトピックとなります。 – Hadoop / Spark / Dataproc – Dataflow / Flink / Beam – バッチ処理 vs ストリーミング処理

  • 2025年8月28日

GCP Cloud Data Fusionとは?超わかりやすい解説

データ分析の現場では、「ノーコードで素早くETLを形にする」ことがますます重要になっています。GCP の Cloud Data Fusion は、GUI 上でソース接続・変換・ロードまでをつなぐことで、SQL やスクリプトを書かずに 実運用レベルのデ […]

  • 2025年8月25日

超入門:PySparkでロジスティック回帰をやってみよう

こんにちは、クラウドデータ研究所です。 今回は「ロジスティック回帰」というものを見てみます。 難しそうな名前ですが、実は身近なところでよく使われている手法です。 データちゃん たとえば銀行が「この人はローンを返してくれるかな?」を予測したり、マーケテ […]

  • 2025年8月25日

【入門シリーズ】PySparkでクラスタリングを体験してみよう 〜Irisデータセットを使って〜

こんにちは、クラウドデータ研究所です。当ブログではこれまでに 重回帰 や ロジスティック回帰 など、PySparkを使った機械学習の手法を取り上げてきました。 今回はシリーズの一つとして、「クラスタリング」を紹介します。クラスタリングは「答え(ラベル […]

  • 2025年8月22日

PySpark超概要:大規模データ処理を支える分散処理の世界

ビッグデータ時代と呼ばれて久しい今日、企業や研究機関では膨大な量のデータを扱うことが当たり前になっています。 しかし、通常のPCや1台のサーバーで処理できるデータ量には限界があります。そこで登場するのが「分散処理」という考え方です。複数のコンピュータ […]