새소식

데이터분석/다섯째주

EDA : Pandas로 파일 읽기

  • -
728x90

 

Pandas (판다스)

 

powerful Python data analysis toolkit

https://pandas.pydata.org/docs/user_guide/index.html

 

  • Python에서 R만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈
  • 단일 프로세스에서는 최대 효율
  • 코딩 가능하고 응용 가능한 엑셀로 받아들여도 됨
  • 누군가 스테로이드 맞은 엑셀로 표현함

 

 

 

Pandas 모듈 불러오기

  【    import  pandas    】  

  【    import  pandas  as 별칭   】  

import 명령을 통해서 사용하겠다고 선언한다.

 

 

 

Pandas로 CSV 파일 읽기 : 

  【    pandas . read_csv ('경로~/파일명.csv', encoding='인코딩 타입')   】   

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

  • 통상 csv는 띄어쓰기로 구분되니 그냥 read_csv 명령으로 읽기만 해도 된다.
  • 한글은 encoding 설정이 필수이다.
  • DataFrame으로 반환된다.

 

Encoding

: 문자형 데이터는 컴퓨터가 인식하지 못하기 때문에 컴퓨터가 이해할 수 있도록 Bit형태로 변형해야한다.
  한글과 같은 Ascii 범위를 벗어난 문자를 표현하기 위한 변형 작업이라고 이해하시면 쉽다.

  1Byte = 8Bit 

 

인코딩 타입

  • ascii
    :  Ascii 계열의 문자열은 0~127까지 표현되기 때문에 1Byte 안에 충분히 표현될 수 있다.
       하지만, 한글은 Ascii 안에서 표현이 불가하다.
  • cp949 / ms949 :  windows 생성된 파일
  • euc-kr
  • utf-8 : 인터넷 주소체계에서도 사용하는 한글화 표준
  • utf-16

 

import pandas as pd
CCTV_Seoul = pd.read_csv('경로/~/Seoul_CCTV.csv', encoding='utf-8')
CCTV_Seoul.head()
-- 출력 --
 

 

 

 

Pandas로 엑셀 파일 읽기 : read_excel

  【    pandas . read_excel ('경로~/파일명.xls', header=2, usecols='엑셀의 컬럼명, ... ')   】   

https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

  • header :
    엑셀에서 컬럼명으로 쓰일 줄을 선택할 수 있다.
    자료를 읽기 시작할 행(header)을 지정

  • usecols :
    엑셀에서 필요한 컬럼만 선택할 수 있다.
    읽어올 엑셀의 컬럼을 지정(usecols)

  • DataFrame으로 반환된다.

 

import pandas as pd
pop_Seoul = pd.read_excel('경로/~/Seoul_Population.xls')
pop_Seoul.head()
-- 출력 --
 

 

import pandas as pd
pop_Seoul = pd.read_excel('경로/~/Seoul_Population.xls', header=2, usecols='B, D, G, J, N')
pop_Seoul.head()
-- 출력 --
 

 

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.