IT基盤技術－クラウド×データの研究所

レイクハウスとDelta Lakeについてわかりやすくご説明します！

そもそもレイクハウスとは？従来、企業は構造化データを高速に分析するデータウェアハウス(DWH) と、非構造化も含め大量の生データを安価に保存するデータレイクを併用してきました。しかし両者は異なる仕組みのため連携が難しく、データが部署ごとにデー […]

はじめにデータ分析やAIの現場では「データレイク」や「データウェアハウス」といった言葉をよく耳にします。最近はその進化形として「レイクハウス」という考え方が広がり、その中で重要な役割を果たしているのがオープンテーブルフォーマットです。本記事で […]

こんばんわ！データクラウド研究所です！データ分析やAIの現場では「データレイク」や「データウェアハウス」といった言葉をよく耳にします。最近はその進化形として「レイクハウス」という考え方が広がり、その中で重要な役割を果たしているのがオープンテーブル […]

AIを活用する上で、最近よく耳にする MCP（Model Context Protocol）。「新しいAPIの一種？」と思う方も多いかもしれません。実はMCPは、従来のAPI連携を大きく変える可能性を秘めた “AI時代のUSB-C” と呼べる存在で […]

そもそもデータフレームって何だろう? データフレーム（DataFrame）は、表形式のデータを扱うためのデータ構造です。 Excelの表をイメージすると理解しやすいです。データ分析の世界では「必須アイテム」といえる存在です。 Pythonとデータフ […]

そもそもAPIってなに？ API（エーピーアイ）は Application Programming Interface の略で、日本語では「アプリケーションとアプリケーションをつなぐ窓口」と言えます。ちょっと難しく聞こえますが、要は「プログラム同士を […]

そもそも分散処理とは？近年のデータ分析では、1 台のコンピュータでは扱いきれない膨大なデータを処理する必要があります。そこで登場するのが分散処理です。これは「大量のデータを複数のコンピュータに分散して並列処理する仕組み」のことを指します。イ […]

Databricksとは？　Databricksは、Apache Sparkの開発者たちによって構築されたクラウド上の統合分析プラットフォームです。簡単に言えば、ビッグデータの保存、クレンジング、処理、分析、さらには機械学習モデルの構築までを1つの […]

ここではAWS Glueを使ったETL構築の流れを整理し、Azure Data Factory（ADF）との共通点・相違点を明確にします。Glue を使った基盤構築に取り組む第一歩として、記事を読み進めてください。 1. AWS Glue とは？そ […]

はじめに本記事では、GCP DataprocでのSparkクラスタ作成とPySparkジョブの実行を実際に行い、その手順と注意点を整理していきたいと思います。 Dataprocは、Apache SparkやHadoopなどのオープンソース分散処理フ […]