Table of Contents
そもそもデータフレームって何だろう?
データフレーム(DataFrame)は、表形式のデータを扱うためのデータ構造です。

Excelの表をイメージすると理解しやすいです。
- 行(row):1件ごとのデータ
- 列(column):「名前」「年齢」「売上」などの項目
データ分析の世界では「必須アイテム」といえる存在です。

Pythonとデータフレーム
Pythonでは Pandas というライブラリでデータフレームを扱います。
例として、簡単な社員データを作ってみましょう。
import pandas as pd
data = {
"名前": ["田中", "佐藤", "鈴木"],
"年齢": [25, 30, 28],
"職業": ["エンジニア", "デザイナー", "データサイエンティスト"]
}
df = pd.DataFrame(data)
print(df)
出力イメージ:
名前 | 年齢 | 職業 |
---|---|---|
田中 | 25 | エンジニア |
佐藤 | 30 | デザイナー |
鈴木 | 28 | データサイエンティスト |
これが データフレームです。
データフレームの便利な操作
データフレームを使うと、データを簡単に操作できます。
- 列を指定して取り出す
print(df["名前"])
- 条件で抽出する
print(df[df["年齢"] > 26])
- 平均を計算する
print(df["年齢"].mean())
このように「コード数行」でExcelのフィルタや関数のようなことができます。
データ分析で使われる理由
- 効率的:数万件、数百万件のデータでも処理が速い
- 直感的:Excelに近いイメージで操作できる
- 拡張性:統計分析、機械学習との相性が良い
現代のデータサイエンスやAIの現場では、まずAPIなどから取得したデータをデータフレームに入れ、そこから分析を進める流れが一般的です。
APIとデータフレームのつながり
実際の業務では「APIでデータを取得 → データフレームで整理・分析」という流れがよく登場します。
- 天気API → データフレームに格納して気温の推移を分析
- SNS API → 投稿をデータフレームに入れて人気度をグラフ化
- 取引API → 取引履歴をデータフレームで管理し、売上や傾向を可視化
つまり、APIとデータフレームはセットで理解すると応用の幅が広がります。
まとめ
- データフレームは「表形式データ」を扱う便利な道具
- PythonではPandasで利用でき、Excel感覚で操作可能
- データ分析やAIの第一歩として必ず登場する
- APIから取得したデータを整理するのに最適
データ分析を学ぶなら、まずデータフレームを使いこなせることが大きな一歩です。
分散処理技術であるSparkがベースになっているPysparkやsnowflakeの開発フレームワークであるpysparkもデータフレーム形式を使用します。詳しくは下記で説明しています。