データ分析基盤－クラウド×データの研究所

Streamlit on Snowflake × Cortexで実現する自然言語からSQLへの変換アーキテクチャをご紹介します！

近年、データ活用の民主化が加速する中で「SQLを直接書けないビジネスユーザーでも自由にデータを分析したい」というニーズが高まっています。その解決策の一つが自然言語をSQLに変換（Text to SQL）する仕組みです。本記事では、Streamli […]

みなさん、データ共有ってどうしていますか？メールでCSVを送ったり、S3に置いたファイルのURLを共有したり…。実はどれも手間やセキュリティリスクが多い方法です。そこで登場するのが Delta Sharing（デルタシェアリング）。Databric […]

Databricksを使う上で欠かせないのが「クラスタ」の理解です。クラスタとは、データ分析や機械学習を実行するためのコンピューティングリソースの集合。この記事では、Databricksでのクラスタ構成のベストプラクティスをわかりやすく整理します。 […]

近年、データは「資産」として扱われるようになり、セキュリティ・権限管理・データの利用統制が企業にとって極めて重要になっています。Databricksが提供する Unity Catalog は、この課題に対応するための「統合データガバナンスソリューシ […]

初期のデータ活用基盤（黎明期）ビジネスにおけるデータ活用が注目される以前、企業の情報システムは主に個別の業務アプリケーション毎にデータを管理していました。各システムのデータはサイロ化（縦割り）されており、組織横断で必要な情報を探し出すだけでも困難で […]

データ活用の現場では、「大量のデータをどう保存し、どう処理し、どう分析や機械学習につなげるか」が大きなテーマです。Databricksはその課題を一つのプラットフォームで解決する「レイクハウス」と呼ばれるアーキテクチャを提供しています。このレイクハウ […]

そもそもレイクハウスとは？従来、企業は構造化データを高速に分析するデータウェアハウス(DWH) と、非構造化も含め大量の生データを安価に保存するデータレイクを併用してきました。しかし両者は異なる仕組みのため連携が難しく、データが部署ごとにデー […]

こんばんわ！データクラウド研究所です！データ分析やAIの現場では「データレイク」や「データウェアハウス」といった言葉をよく耳にします。最近はその進化形として「レイクハウス」という考え方が広がり、その中で重要な役割を果たしているのがオープンテーブル […]

Databricksとは？　Databricksは、Apache Sparkの開発者たちによって構築されたクラウド上の統合分析プラットフォームです。簡単に言えば、ビッグデータの保存、クレンジング、処理、分析、さらには機械学習モデルの構築までを1つの […]

GCP Dataprocとは？ GCP Dataprocは、Google Cloud上でApache SparkやApache Hadoopなどのオープンソースビッグデータ処理フレームワークを、簡単かつ高速に実行できるマネージドサービスです。これによ […]