- 2025年8月28日
GCP Cloud Data Fusionとは?超わかりやすい解説
データ分析の現場では、「ノーコードで素早くETLを形にする」ことがますます重要になっています。GCP の Cloud Data Fusion は、GUI 上でソース接続・変換・ロードまでをつなぐことで、SQL やスクリプトを書かずに 実運用レベルのデ […]
データ分析に関する分散処理に関するトピックとなります。 – Hadoop / Spark / Dataproc – Dataflow / Flink / Beam – バッチ処理 vs ストリーミング処理
データ分析の現場では、「ノーコードで素早くETLを形にする」ことがますます重要になっています。GCP の Cloud Data Fusion は、GUI 上でソース接続・変換・ロードまでをつなぐことで、SQL やスクリプトを書かずに 実運用レベルのデ […]
こんにちは、クラウドデータ研究所です。 今回は「ロジスティック回帰」というものを見てみます。 難しそうな名前ですが、実は身近なところでよく使われている手法です。 データちゃん たとえば銀行が「この人はローンを返してくれるかな?」を予測したり、マーケテ […]
こんにちは、クラウドデータ研究所です。当ブログではこれまでに 重回帰 や ロジスティック回帰 など、PySparkを使った機械学習の手法を取り上げてきました。 今回はシリーズの一つとして、「クラスタリング」を紹介します。クラスタリングは「答え(ラベル […]
ビッグデータ時代と呼ばれて久しい今日、企業や研究機関では膨大な量のデータを扱うことが当たり前になっています。 しかし、通常のPCや1台のサーバーで処理できるデータ量には限界があります。そこで登場するのが「分散処理」という考え方です。複数のコンピュータ […]
そもそもデータフレームって何だろう? データフレーム(DataFrame)は、表形式のデータを扱うためのデータ構造です。 Excelの表をイメージすると理解しやすいです。 データ分析の世界では「必須アイテム」といえる存在です。 Pythonとデータフ […]
そもそもSnowflakeとは? Snowflakeはクラウドネイティブなデータウェアハウスで、AWS・Azure・GCPなど複数のクラウド環境上で利用可能なサービスです。従来のオンプレミス型データベースとは異なり、ストレージとコンピューティングを完 […]
PySparkとは? PySpark(パイスパーク)とは、分散処理エンジン 「Apache Spark をPythonから利用できるライブラリ」です。SparkはJavaやScalaで開発されていますが、データ分析分野ではPythonが広く使われてい […]
Sparkとは? Apache Spark(スパーク)は、「大規模データを高速に処理するための分散処理フレームワーク」です。従来のHadoop MapReduceに比べて圧倒的に高速で柔軟性が高く、現在では分散処理基盤の代表格として幅広く利用されてい […]
そもそも分散処理とは? 近年のデータ分析では、1 台のコンピュータでは扱いきれない膨大なデータを処理する必要があります。 そこで登場するのが 分散処理 です。これは「大量のデータを複数のコンピュータに分散して並列処理する仕組み」のことを指します。 イ […]