pandasを利用してCSVを読み込むときに、よく利用する機能をまとめます。
pandasはjupyter上で使うことが多いので、この記事では下記のモジュールがimport されていることが前提です。
import pandas as pd
from IPython.display import display
CSVファイルの読み込み
単純なCSVファイル(sample.csv)を用意します。
$ cat sample.csv
col1,col2,col3
id1,1,2022-11-13 19:00:00
上記のファイルを読み込むときに利用するサンプルです。
# 単純な読み込み
df = pd.read_csv('./sample.csv')
# shift-jisファイルの読み込み
df = pd.read_csv('./sample_jis.csv', encoding='shift-jis')
# 一部のカラムのみ読み込み
df = pd.read_csv('./sample.csv', usecols=[0,2])
df = pd.read_csv('./sample.csv', usecols=['col1','col2'])
# 読み込み時にカラム名をつける
df = pd.read_csv('./sample.csv', names=['id', 'name', 'datetime'], header=0)
特殊なCSVファイルの読み込み
CSVファイルの1カラムが、ダブルクォーテーションで囲まれているファイルです。
$ cat sample_quoted.csv
col1,col2,col3
id1,"Hello World!", 1.2
id2,"Python Pandas\n", 2.3
id2,"comma,is,included", 2.3
このファイルは何も問題なく読み込めます。
df = pd.read_csv('./sample_quoted.csv')
display(df)
#col1 col2 col3
# id1 Hello World! 1.2
#1 id2 Python Pandas\n 2.3
#2 id2 comma,is,included 2.3
CSVを読み組むときに一緒に利用する関数
CSVファイルを読み込んだ後、中身を確認するときに利用する関数です。
df = pd.read_csv('./sample.csv')
# 情報表示
df.info()
# 先頭行の表示
df.head(2)
# 末尾の表示
df.tail(2)
# カラム名だけをリストで取得
df.columns.values.tolist()
# 特定カラムをリストで取得
df['col1'].values.tolist()
# 統計値を計算
df.describe()