databricks－クラウド×データの研究所

Spark／Databricks における “キュー（データスキュー）” とは何か？

まず、「キュー」あるいは「データスキュー (data skew)」という言葉は、分散処理システム（Spark／Databricks 等）でしばしば問題になる現象を指します。データスキューを解決するための代表的な方法がいくつか存在しますので、それぞ […]

そもそもレイクハウスとは？従来、企業は構造化データを高速に分析するデータウェアハウス(DWH) と、非構造化も含め大量の生データを安価に保存するデータレイクを併用してきました。しかし両者は異なる仕組みのため連携が難しく、データが部署ごとにデー […]

Databricksとは？　Databricksは、Apache Sparkの開発者たちによって構築されたクラウド上の統合分析プラットフォームです。簡単に言えば、ビッグデータの保存、クレンジング、処理、分析、さらには機械学習モデルの構築までを1つの […]

データ活用は企業競争力の鍵です。クラウドネイティブの分析基盤であるSnowflakeやDatabricks資格は、技術力と市場価値を同時に高める強力な武器です。この記事では概要をレビューしていきます。データ系資格の重要性近年、企業の意思決定やサー […]