CATEGORY

クラウド・データ基盤

クラウド・データ基盤に関するトピックになります。 – クラウド概念(IaaS / PaaS / SaaS) – 各クラウド比較(AWS, GCP, Azure) – ネットワーク / セキュリティ基盤

  • 2025年8月30日

【入門】IaC・構成管理とは?〜インフラをプログラムで操る時代〜

サーバーを立てる、ネットワークをつなぐ、データベースを用意する。こうした「インフラの準備」は昔から大変な仕事でした。IT担当者が夜中にデータセンターに駆けつけて、ケーブルを差し替えたり、設定画面をぽちぽち操作したりする光景。ドラマや映画でもよく見かけ […]

  • 2025年8月28日

GCP Cloud Data Fusionとは?超わかりやすい解説

データ分析の現場では、「ノーコードで素早くETLを形にする」ことがますます重要になっています。GCP の Cloud Data Fusion は、GUI 上でソース接続・変換・ロードまでをつなぐことで、SQL やスクリプトを書かずに 実運用レベルのデ […]

  • 2025年8月25日

超入門:PySparkでロジスティック回帰をやってみよう

こんにちは、クラウドデータ研究所です。 今回は「ロジスティック回帰」というものを見てみます。 難しそうな名前ですが、実は身近なところでよく使われている手法です。 データちゃん たとえば銀行が「この人はローンを返してくれるかな?」を予測したり、マーケテ […]

  • 2025年8月25日

【入門シリーズ】PySparkでクラスタリングを体験してみよう 〜Irisデータセットを使って〜

こんにちは、クラウドデータ研究所です。当ブログではこれまでに 重回帰 や ロジスティック回帰 など、PySparkを使った機械学習の手法を取り上げてきました。 今回はシリーズの一つとして、「クラスタリング」を紹介します。クラスタリングは「答え(ラベル […]

  • 2025年8月22日

PySpark超概要:大規模データ処理を支える分散処理の世界

ビッグデータ時代と呼ばれて久しい今日、企業や研究機関では膨大な量のデータを扱うことが当たり前になっています。 しかし、通常のPCや1台のサーバーで処理できるデータ量には限界があります。そこで登場するのが「分散処理」という考え方です。複数のコンピュータ […]