PySpark超概要:大規模データ処理を支える分散処理の世界

ビッグデータ時代と呼ばれて久しい今日、企業や研究機関では膨大な量のデータを扱うことが当たり前になっています。 しかし、通常のPCや1台のサーバーで処理できるデータ量には限界があります。そこで登場するのが「分散処理」という考え方です。複数のコンピュータ … 続きを読む PySpark超概要:大規模データ処理を支える分散処理の世界