18 판더스(pandas) 데이터 가공
판더스(pandas)는 테이블 형태의 데이터를 다루기 위한 파이썬 패키지로, R 언어라면 dplyr
패키지에 해당한다. 파이썬에서는 사각형 데이터를 다루는 표준 도구이다.
판더스의 내부는 numpy
패키지를 기반으로 하며, numpy
의 배열을 확장한 Series
, DataFrame
객체를 제공한다. 최근 pandas
2.0 버전부터는 PyArrow
를 기반으로 한 DataFrame
도 지원하기 시작했다. PyArrow
같은 도구는 열 단위 데이터 처리에 최적화되어 있는데 이는 대규몬 데이터를 다룰 때 성능을 크게 향상 시킬 수 있다. 처음 배울 때는 그다지 신경쓰지 않아도 될 것이다.