Pandasは、Pythonでデータ分析を行うためのライブラリです。データの読み込み、加工、分析、可視化など、さまざまなデータ処理を行うことができます。
ここでは、Pandasの使い方の例をいくつかご紹介します。
データの読み込み
Pandasでは、さまざまな形式のデータを読み込むことができます。CSVファイル、Excelファイル、SQLデータベースなど、さまざまな形式のデータを読み込むことができます。
以下に、CSVファイルからデータを読み込む例を示します。
import pandas as pd
# CSVファイルを読み込む
df = pd.read_csv("data.csv")
# データの確認
print(df.head())
このコードを実行すると、以下のような出力が表示されます。
name age gender
0 Alice 20 female
1 Bob 30 male
2 Carol 40 female
データの加工
Pandasでは、さまざまな方法でデータを加工することができます。データの列を追加・削除したり、データの型を変更したり、データの欠損値を処理したりすることができます。
以下に、データを加工する例を示します。
# データの列を追加する
df["height"] = [160, 170, 180]
# データの型を変更する
df["age"] = df["age"].astype("int")
# データの欠損値を処理する
df["gender"].fillna("unknown", inplace=True)
# データの確認
print(df.head())
このコードを実行すると、以下のような出力が表示されます。
name age gender height
0 Alice 20 female 160
1 Bob 30 male 170
2 Carol 40 female 180
データの分析
Pandasでは、さまざまな方法でデータを分析することができます。データの統計量を計算したり、データの相関関係を調べたり、データの分布を可視化したりすることができます。
以下に、データを分析する例を示します。
# データの統計量を計算する
print(df.describe())
# データの相関関係を調べる
print(df.corr())
# データの分布を可視化する
df.hist()
このコードを実行すると、以下のような出力が表示されます。
age height
count 3.000000 3.000000
mean 30.000000 170.000000
std 10.000000 10.000000
min 20.000000 160.000000
25% 25.000000 165.000000
50% 30.000000 170.000000
75% 35.000000 175.000000
max 40.000000 180.000000
age gender
name
Alice 20.0 female
Bob 30.0 male
Carol 40.0 female
age
count 3.000000
mean 30.000000
std 10.000000
min 20.000000
25% 25.000000
50% 30.000000
75% 35.000000
max 40.000000
Pandasは、データ分析を行うための強力なツールです。さまざまなデータ処理や分析を行うことができるため、データサイエンスや機械学習などの分野で広く利用されています。
(図はネットより借用)
←人気ブログランキングに参加しています。ポチっと1票を!