본문 바로가기
5-3. Pandas 제공 자료구조/Series

[파이썬 Pandas] 시리즈(Series) 소개, 정의

by 만다린망고 2020. 10. 21.
반응형

[파이썬 Pandas] 

시리즈(Series) 소개, 정의


시리즈는 1차원 배열과 비슷한 자료구조입니다. 딕셔너리와도 비슷합니다. 


시리즈는 1열로만 이루어진 자료구조인데 두가지 특징을 가집니다.


- 열의 이름을 지정할 수 있음

- 각 셀에는 서로 다른 모든 자료형을 넣을 수 있고, 다차원 배열도 넣을 수 있음


직접 사용해보며 이해해봅시다.


먼저 판다스 라이브러리를 불러옵시다. pd라는 이름으로 불러오는 것이 일반적입니다. numpy도 사용할 것이라 함께 불러옵시다. np라는 이름으로 불러오는 것이 일반적입니다.


import pandas as pd

import numpy as np


이제 시리즈를 정의합시다. pd.Series( ) 라는 메소드를 사용합니다. 괄호 안에 리스트를 넣어도 되고, 넘파이 배열을 넣어도 됩니다.


A1=pd.Series([1,2,3,4])

A2=pd.Series(np.array([1,2,3,4]))


>>> A1

0    1

1    2

2    3

3    4

dtype: int64


>>> A2

0    1

1    2

2    3

3    4

dtype: int32


문자로도 정의할 수 있습니다.


A3=pd.Series(['a','b','c','d'])


>>> A3

0    a

1    b

2    c

3    d

dtype: object


문자와 숫자를 함께 넣으면 어떻게 될까요? 


A4=pd.Series([1,'b','c','d'])


>>> A4

0    1

1    b

2    c

3    d

dtype: object


이후에 배울 인덱싱과 type 함수를 이용하여 확인해보면 숫자는 그대로 숫자로 있는 것을 알 수 있습니다.


>>> type(A4[0])

int


>>> type(A4[1])

str


시리즈에 적용할 수 있는 values 와 index 메소드를 사용해보면, 흥미로운 결과를 볼 수 있습니다.


>>> A1.values

array([1, 2, 3, 4], dtype=int64)


>>> A1.index

RangeIndex(start=0, stop=4, step=1)


판다스의 시리즈 데이터구조에 입력된 값은 numpy 의 array 형태입니다. 시리즈는 1차원 array 에 index 가 부여된 형태라고 이해 할 수 있습니다.

반응형

댓글