5-3. Pandas 제공 자료구조/DataFrame
[파이썬 판다스] 데이터프레임에서 범주형 자료를 수치형으로 바꾸는 방법
만다린망고
2022. 2. 11. 09:00
반응형
데이터프레임으로 범주형 자료를 하나 정의합시다. 여섯 사람의 이름과 각 사람이 사용하는 핸드폰 기종입니다.
import numpy as np
df = pd.DataFrame({'NAME': ['KSM','LHN','SHN','NKA','POS','YWS'],
'Phone': ['삼성', 'LG', 'LG', '삼성', '애플', '애플']})
>>> df
NAME Phone
0 KSM 삼성
1 LHN LG
2 SHN LG
3 NKA 삼성
4 POS 애플
5 YWS 애플
수치형 자료로 바꿀 때는 get_dummy 함수를 사용합니다. 열을 어느 변수를 기준으로 분류할지 결정하기 위해 columns 옵션을 사용합니다.
>>> pd.get_dummies(df,columns=['Phone'])
NAME Phone_LG Phone_삼성 Phone_애플
0 KSM 0 1 0
1 LHN 1 0 0
2 SHN 1 0 0
3 NKA 0 1 0
4 POS 0 0 1
5 YWS 0 0 1
반응형