neverjpのぶらり日記

コンピューター関連の記事とぶらりと出かけた先の写真など

pandasに関して

pandas

Pandasは、Pythonでデータ分析を行うためのライブラリです。データの読み込み、加工、分析、可視化など、さまざまなデータ処理を行うことができます。

ここでは、Pandasの使い方の例をいくつかご紹介します。

データの読み込み

Pandasでは、さまざまな形式のデータを読み込むことができます。CSVファイル、Excelファイル、SQLデータベースなど、さまざまな形式のデータを読み込むことができます。

以下に、CSVファイルからデータを読み込む例を示します。

 

import pandas as pd

# CSVファイルを読み込む
df = pd.read_csv("data.csv")

# データの確認
print(df.head())

 

このコードを実行すると、以下のような出力が表示されます。

 

   name  age  gender
0   Alice  20   female
1   Bob    30   male
2   Carol  40   female

 

データの加工

Pandasでは、さまざまな方法でデータを加工することができます。データの列を追加・削除したり、データの型を変更したり、データの欠損値を処理したりすることができます。

以下に、データを加工する例を示します。

 

# データの列を追加する
df["height"] = [160, 170, 180]

# データの型を変更する
df["age"] = df["age"].astype("int")

# データの欠損値を処理する
df["gender"].fillna("unknown", inplace=True)

# データの確認
print(df.head())

 

このコードを実行すると、以下のような出力が表示されます。

 

   name  age  gender  height
0   Alice  20   female  160
1   Bob    30   male    170
2   Carol  40   female  180

 

データの分析

Pandasでは、さまざまな方法でデータを分析することができます。データの統計量を計算したり、データの相関関係を調べたり、データの分布を可視化したりすることができます。

以下に、データを分析する例を示します。

 

# データの統計量を計算する
print(df.describe())

# データの相関関係を調べる
print(df.corr())

# データの分布を可視化する
df.hist()

 

このコードを実行すると、以下のような出力が表示されます。

 

    age  height
count  3.000000  3.000000
mean   30.000000  170.000000
std    10.000000  10.000000
min    20.000000  160.000000
25%    25.000000  165.000000
50%    30.000000  170.000000
75%    35.000000  175.000000
max    40.000000  180.000000

 

   age  gender
name
Alice  20.0  female
Bob    30.0  male
Carol  40.0  female

 

age
count    3.000000
mean    30.000000
std    10.000000
min    20.000000
25%    25.000000
50%    30.000000
75%    35.000000
max    40.000000

 

 

 

Pandasは、データ分析を行うための強力なツールです。さまざまなデータ処理や分析を行うことができるため、データサイエンスや機械学習などの分野で広く利用されています。

(図はネットより借用)

人気ブログランキングへ←人気ブログランキングに参加しています。ポチっと1票を!