- 2025年10月1日
Spark/Databricks における “キュー(データスキュー)” とは何か?
まず、「キュー」あるいは 「データスキュー (data skew)」という言葉は、分散処理システム(Spark/Databricks 等)でしばしば問題になる現象を指します。 データスキューを解決するための代表的な方法がいくつか存在しますので、それぞ […]
データ分析に関する分散処理に関するトピックとなります。 – Hadoop / Spark / Dataproc – Dataflow / Flink / Beam – バッチ処理 vs ストリーミング処理
まず、「キュー」あるいは 「データスキュー (data skew)」という言葉は、分散処理システム(Spark/Databricks 等)でしばしば問題になる現象を指します。 データスキューを解決するための代表的な方法がいくつか存在しますので、それぞ […]
データ活用の現場では、「大量のデータをどう保存し、どう処理し、どう分析や機械学習につなげるか」が大きなテーマです。Databricksはその課題を一つのプラットフォームで解決する「レイクハウス」と呼ばれるアーキテクチャを提供しています。このレイクハウ […]
そもそもレイクハウスとは? 従来、企業は構造化データを高速に分析する データウェアハウス(DWH) と、非構造化も含め大量の生データを安価に保存する データレイク を併用してきました。しかし両者は異なる仕組みのため連携が難しく、データが部署ごとにデー […]
データ分析の現場では、「ノーコードで素早くETLを形にする」ことがますます重要になっています。GCP の Cloud Data Fusion は、GUI 上でソース接続・変換・ロードまでをつなぐことで、SQL やスクリプトを書かずに 実運用レベルのデ […]
こんにちは、クラウドデータ研究所です。 今回は「ロジスティック回帰」というものを見てみます。 難しそうな名前ですが、実は身近なところでよく使われている手法です。 データちゃん たとえば銀行が「この人はローンを返してくれるかな?」を予測したり、マーケテ […]
こんにちは、クラウドデータ研究所です。当ブログではこれまでに 重回帰 や ロジスティック回帰 など、PySparkを使った機械学習の手法を取り上げてきました。 今回はシリーズの一つとして、「クラスタリング」を紹介します。クラスタリングは「答え(ラベル […]
ビッグデータ時代と呼ばれて久しい今日、企業や研究機関では膨大な量のデータを扱うことが当たり前になっています。 しかし、通常のPCや1台のサーバーで処理できるデータ量には限界があります。そこで登場するのが「分散処理」という考え方です。複数のコンピュータ […]
そもそもデータフレームって何だろう? データフレーム(DataFrame)は、表形式のデータを扱うためのデータ構造です。 Excelの表をイメージすると理解しやすいです。 データ分析の世界では「必須アイテム」といえる存在です。 Pythonとデータフ […]
そもそもSnowflakeとは? Snowflakeはクラウドネイティブなデータウェアハウスで、AWS・Azure・GCPなど複数のクラウド環境上で利用可能なサービスです。従来のオンプレミス型データベースとは異なり、ストレージとコンピューティングを完 […]
PySparkとは? PySpark(パイスパーク)とは、分散処理エンジン 「Apache Spark をPythonから利用できるライブラリ」です。SparkはJavaやScalaで開発されていますが、データ分析分野ではPythonが広く使われてい […]