pandasでCSVファイルを読み込むときに利用する機能

pandasを利用してCSVを読み込むときに、よく利用する機能をまとめます。

pandasはjupyter上で使うことが多いので、この記事では下記のモジュールがimport されていることが前提です。

import pandas as pd
from IPython.display import display

CSVファイルの読み込み

単純なCSVファイル(sample.csv)を用意します。

$ cat sample.csv
col1,col2,col3
id1,1,2022-11-13 19:00:00

上記のファイルを読み込むときに利用するサンプルです。

# 単純な読み込み
df = pd.read_csv('./sample.csv')

# shift-jisファイルの読み込み
df = pd.read_csv('./sample_jis.csv', encoding='shift-jis')

# 一部のカラムのみ読み込み
df = pd.read_csv('./sample.csv', usecols=[0,2])
df = pd.read_csv('./sample.csv', usecols=['col1','col2'])

# 読み込み時にカラム名をつける
df = pd.read_csv('./sample.csv', names=['id', 'name', 'datetime'], header=0)

特殊なCSVファイルの読み込み

CSVファイルの1カラムが、ダブルクォーテーションで囲まれているファイルです。

$ cat sample_quoted.csv
col1,col2,col3
id1,"Hello World!", 1.2
id2,"Python Pandas\n", 2.3
id2,"comma,is,included", 2.3

このファイルは何も問題なく読み込めます。

df = pd.read_csv('./sample_quoted.csv')
display(df)

#col1	col2	col3
#	id1	Hello World!	1.2
#1	id2	Python Pandas\n	2.3
#2	id2	comma,is,included	2.3

CSVを読み組むときに一緒に利用する関数

CSVファイルを読み込んだ後、中身を確認するときに利用する関数です。

df = pd.read_csv('./sample.csv')

# 情報表示
df.info()

# 先頭行の表示
df.head(2)

# 末尾の表示
df.tail(2)

# カラム名だけをリストで取得
df.columns.values.tolist()

# 特定カラムをリストで取得
df['col1'].values.tolist()

# 統計値を計算
df.describe()

  • この記事を書いた人

たかさん

犬と暮らすクラウドエンジニア。GCPが好きだけど良く触るのはAWSとAzureです。

-Python
-,