목차
- Pandas 소개
- Pandas 사용 이유
- Pandas 가능 작업
- Pandas 코드 위치
Pandas 소개
'데이터 셋을 (분석, 정리, 탐색, 조작)' 위한 Python 라이브러리로, 표 형식의 데이터를 다루는 데 중점을 두며, 데이터프레임(DataFrame)이라는 자료구조를 제공함.
(Since 2008年.)
Pandas 사용 이유
빅 데이터 분석 후, 통계 이론 기반해 결론 도출 가능.
- 난잡한 데이터도 깔끔하게 정리 가능.
- 데이터 (저장, 사용, 분석, 정보 도출)에 유용.
Pandas 가능 작업
※ 데이터 분석, 데이터 정제, 통계 분석 등의 작업에 사용.
1. 데이터 관련 답변 제공.
(예) 2개 이상 컬럼 간 상관관계. / 평균값 /최대값 / 최소값 등.
2. 데이터 청소/정리 (= Cleaning data) 가능.
(예) 관련 없거나, 잘못되었거나, 비었거나, null인 데이터 삭제 가능.
3. 데이터 필터링, 정렬, 그룹화, 병합, 피벗 등 다양한 데이터 조작 기능을 제공하며, 시계열 데이터 처리에도 강력한 기능 가짐.
Pandas 코드 위치
https://github.com/pandas-dev/pandas
PS.
github : 많은 사람들이 동일한 코드베이스에서 작업 가능.