分散処理－クラウド×データの研究所

Spark／Databricks における “キュー（データスキュー）” とは何か？

まず、「キュー」あるいは「データスキュー (data skew)」という言葉は、分散処理システム（Spark／Databricks 等）でしばしば問題になる現象を指します。データスキューを解決するための代表的な方法がいくつか存在しますので、それぞ […]

データ活用の現場では、「大量のデータをどう保存し、どう処理し、どう分析や機械学習につなげるか」が大きなテーマです。Databricksはその課題を一つのプラットフォームで解決する「レイクハウス」と呼ばれるアーキテクチャを提供しています。このレイクハウ […]

そもそもレイクハウスとは？従来、企業は構造化データを高速に分析するデータウェアハウス(DWH) と、非構造化も含め大量の生データを安価に保存するデータレイクを併用してきました。しかし両者は異なる仕組みのため連携が難しく、データが部署ごとにデー […]

データ分析の現場では、「ノーコードで素早くETLを形にする」ことがますます重要になっています。GCP の Cloud Data Fusion は、GUI 上でソース接続・変換・ロードまでをつなぐことで、SQL やスクリプトを書かずに実運用レベルのデ […]

こんにちは、クラウドデータ研究所です。今回は「ロジスティック回帰」というものを見てみます。難しそうな名前ですが、実は身近なところでよく使われている手法です。データちゃんたとえば銀行が「この人はローンを返してくれるかな？」を予測したり、マーケテ […]

こんにちは、クラウドデータ研究所です。当ブログではこれまでに重回帰やロジスティック回帰など、PySparkを使った機械学習の手法を取り上げてきました。今回はシリーズの一つとして、「クラスタリング」を紹介します。クラスタリングは「答え（ラベル […]

ビッグデータ時代と呼ばれて久しい今日、企業や研究機関では膨大な量のデータを扱うことが当たり前になっています。しかし、通常のPCや1台のサーバーで処理できるデータ量には限界があります。そこで登場するのが「分散処理」という考え方です。複数のコンピュータ […]

そもそもデータフレームって何だろう? データフレーム（DataFrame）は、表形式のデータを扱うためのデータ構造です。 Excelの表をイメージすると理解しやすいです。データ分析の世界では「必須アイテム」といえる存在です。 Pythonとデータフ […]

そもそもSnowflakeとは？ Snowflakeはクラウドネイティブなデータウェアハウスで、AWS・Azure・GCPなど複数のクラウド環境上で利用可能なサービスです。従来のオンプレミス型データベースとは異なり、ストレージとコンピューティングを完 […]

PySparkとは？ PySpark（パイスパーク）とは、分散処理エンジン「Apache Spark をPythonから利用できるライブラリ」です。SparkはJavaやScalaで開発されていますが、データ分析分野ではPythonが広く使われてい […]