Databricks－クラウド×データの研究所

Spark／Databricks における “キュー（データスキュー）” とは何か？

まず、「キュー」あるいは「データスキュー (data skew)」という言葉は、分散処理システム（Spark／Databricks 等）でしばしば問題になる現象を指します。データスキューを解決するための代表的な方法がいくつか存在しますので、それぞ […]

みなさん、データ共有ってどうしていますか？メールでCSVを送ったり、S3に置いたファイルのURLを共有したり…。実はどれも手間やセキュリティリスクが多い方法です。そこで登場するのが Delta Sharing（デルタシェアリング）。Databric […]

Databricksを使う上で欠かせないのが「クラスタ」の理解です。クラスタとは、データ分析や機械学習を実行するためのコンピューティングリソースの集合。この記事では、Databricksでのクラスタ構成のベストプラクティスをわかりやすく整理します。 […]

近年、データは「資産」として扱われるようになり、セキュリティ・権限管理・データの利用統制が企業にとって極めて重要になっています。Databricksが提供する Unity Catalog は、この課題に対応するための「統合データガバナンスソリューシ […]

データ活用の現場では、「大量のデータをどう保存し、どう処理し、どう分析や機械学習につなげるか」が大きなテーマです。Databricksはその課題を一つのプラットフォームで解決する「レイクハウス」と呼ばれるアーキテクチャを提供しています。このレイクハウ […]

そもそもレイクハウスとは？従来、企業は構造化データを高速に分析するデータウェアハウス(DWH) と、非構造化も含め大量の生データを安価に保存するデータレイクを併用してきました。しかし両者は異なる仕組みのため連携が難しく、データが部署ごとにデー […]

はじめにデータ分析やAIの現場では「データレイク」や「データウェアハウス」といった言葉をよく耳にします。最近はその進化形として「レイクハウス」という考え方が広がり、その中で重要な役割を果たしているのがオープンテーブルフォーマットです。本記事で […]

Databricksとは？　Databricksは、Apache Sparkの開発者たちによって構築されたクラウド上の統合分析プラットフォームです。簡単に言えば、ビッグデータの保存、クレンジング、処理、分析、さらには機械学習モデルの構築までを1つの […]