18  판더스(pandas) 데이터 가공

판더스(pandas)는 테이블 형태의 데이터를 다루기 위한 파이썬 패키지로, R 언어라면 dplyr 패키지에 해당한다. 파이썬에서는 사각형 데이터를 다루는 표준 도구이다.

판더스의 내부는 numpy 패키지를 기반으로 하며, numpy의 배열을 확장한 Series, DataFrame 객체를 제공한다. 최근 pandas 2.0 버전부터는 PyArrow를 기반으로 한 DataFrame도 지원하기 시작했다. PyArrow 같은 도구는 열 단위 데이터 처리에 최적화되어 있는데 이는 대규몬 데이터를 다룰 때 성능을 크게 향상 시킬 수 있다. 처음 배울 때는 그다지 신경쓰지 않아도 될 것이다.