본문 바로가기
5-3. Pandas 제공 자료구조/DataFrame

[파이썬 판다스] 데이터프레임에서 범주형 자료를 수치형으로 바꾸는 방법

by 만다린망고 2022. 2. 11.
반응형

데이터프레임으로 범주형 자료를 하나 정의합시다. 여섯 사람의 이름과 각 사람이 사용하는 핸드폰 기종입니다. 

import numpy as np

df = pd.DataFrame({'NAME': ['KSM','LHN','SHN','NKA','POS','YWS'],
                   'Phone': ['삼성', 'LG', 'LG', '삼성', '애플', '애플']})

>>> df
  NAME Phone
0  KSM    삼성
1  LHN    LG
2  SHN    LG
3  NKA    삼성
4  POS    애플
5  YWS    애플


수치형 자료로 바꿀 때는 get_dummy 함수를 사용합니다. 열을 어느 변수를 기준으로 분류할지 결정하기 위해 columns 옵션을 사용합니다. 

>>> pd.get_dummies(df,columns=['Phone'])
  NAME  Phone_LG  Phone_삼성  Phone_애플
0  KSM         0         1         0
1  LHN         1         0         0
2  SHN         1         0         0
3  NKA         0         1         0
4  POS         0         0         1
5  YWS         0         0         1
반응형

댓글