파이썬 판다스 기초 - 데이터 정보 확인 및 숫자로 변환

이번 시간에는 판다스의 정보를 변경해보는 방법을 알아보겠습니다.

import pandas as pd


data = {'name': ['kim', 'choi', 'park', 'lee', 'jung'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [2, 3, 5, 3, 4],
        'id': ['0001', '0002', '0003', '0004', 'A0001']}
df = pd.DataFrame(data)



print(df)
df.info()

먼저 기본 데이터를 입력하고 info를 통해서 타입을 확인해 봅니다.

 

 

이외에 정보를 확이하는 명령어는

 

df.describe()를 통해서 간단한 통계치를 확인할 수 있구요.

df.shape를 통해서 형태에 대한 값도 불러올 수 있습니다.

이후 ID를 숫자형으로 변경하기 위해서는 pd.to_numeric 함수를 사용할 수 있는데요.

 

다만 영어가 포함되어 있어서 에러가 발생합니다.

이 때에는 errors 처리방법을 coerce로 강제로 변환이 가능합니다.

df['id'] = df['id'].apply(pd.to_numeric, errors = 'coerce')

print(df)

이 에러처리는 3가지 방법이 포함되는데요.

errors: error는 아래의 옵션이 가능합니다.

- errors = 'ignore' -> 숫자로 변경할 수 없는 데이터라면 숫자로 변경하지 않고 원본 데이터를 그대로 반환합니다.

- errors = 'coerce' -> 숫자로 변경할 수 없는 데이터라면 기존 데이터를 지우고 NaN으로 설정하여 반환합니다.

- errors = 'raise' -> 숫자로 변경할 수 없는 데이터라면 에러를 일으키며 코드를 중단합니다.

저는 이중에서 coerce를사용했기 때문에 NaN 값으로 변경된 것을 확인할 수 있습니다.

그럼 잘 사용하시기 바랍니다.