Pandas (판다스)
powerful Python data analysis toolkit
https://pandas.pydata.org/docs/user_guide/index.html
- Python에서 R만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈
- 단일 프로세스에서는 최대 효율
- 코딩 가능하고 응용 가능한 엑셀로 받아들여도 됨
- 누군가 스테로이드 맞은 엑셀로 표현함
Pandas 모듈 불러오기
【 import pandas 】
【 import pandas as 별칭 】
import 명령을 통해서 사용하겠다고 선언한다.
Pandas로 CSV 파일 읽기 :
【 pandas . read_csv ('경로~/파일명.csv', encoding='인코딩 타입') 】
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- 통상 csv는 띄어쓰기로 구분되니 그냥 read_csv 명령으로 읽기만 해도 된다.
- 한글은 encoding 설정이 필수이다.
- DataFrame으로 반환된다.
Encoding
: 문자형 데이터는 컴퓨터가 인식하지 못하기 때문에 컴퓨터가 이해할 수 있도록 Bit형태로 변형해야한다.
한글과 같은 Ascii 범위를 벗어난 문자를 표현하기 위한 변형 작업이라고 이해하시면 쉽다.
1Byte = 8Bit
인코딩 타입
- ascii
: Ascii 계열의 문자열은 0~127까지 표현되기 때문에 1Byte 안에 충분히 표현될 수 있다.
하지만, 한글은 Ascii 안에서 표현이 불가하다.
- cp949 / ms949 : windows 생성된 파일
- euc-kr
- utf-8 : 인터넷 주소체계에서도 사용하는 한글화 표준
- utf-16
import pandas as pd
CCTV_Seoul = pd.read_csv('경로/~/Seoul_CCTV.csv', encoding='utf-8')
CCTV_Seoul.head()
Pandas로 엑셀 파일 읽기 : read_excel
【 pandas . read_excel ('경로~/파일명.xls', header=2, usecols='엑셀의 컬럼명, ... ') 】
https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html
- header :
엑셀에서 컬럼명으로 쓰일 줄을 선택할 수 있다.
자료를 읽기 시작할 행(header)을 지정
- usecols :
엑셀에서 필요한 컬럼만 선택할 수 있다.
읽어올 엑셀의 컬럼을 지정(usecols)
- DataFrame으로 반환된다.
import pandas as pd
pop_Seoul = pd.read_excel('경로/~/Seoul_Population.xls')
pop_Seoul.head()
import pandas as pd
pop_Seoul = pd.read_excel('경로/~/Seoul_Population.xls', header=2, usecols='B, D, G, J, N')
pop_Seoul.head()