새소식

데이터분석/다섯째주

EDA : 서울시 CCTV · 인구 현황(3) 데이터 합치기

  • -
728x90

목차

     

     

    주제 : 인구대비 상대적으로 CCTV가 적은 구를 찾아보자. 인구 데이터와 CCTV는 상관관계가 있을까?

    1. 서울시 구별 CCTV 현황 데이터 확보 (Python, Pandas)
    2. 인구 현황 데이터 확보  (Python, Pandas)
    3. CCTV 데이터와 인구 형황 데이터 합치기  (Python, Pandas)   ✔
    4. 데이터 정리하고 정렬하기  (Python, Pandas)   ✔
    5. 그래프를 그릴 수 있는 능력 (Matplotlib)
    6. 전체적인 경향을 파악할 수 있는 능력 (Regression using Numpy)
    7. 그 경향에서 벗어난 데이터를 강조하는 능력 (Insight and Visualization)

     

    서울시 CCTV 현황과 인구 현황

     

    데이터 합치기 

    data_result = pd.merge(CCTV_Seoul, pop_Seoul, on='구별')
    data_result.head()

    -- 출력 --

     

     

    불필요한 컬럼 제거 

    del data_result['2013년도 이전']
    del data_result['2014년']
    
    data_result.drop(['2015년', '2016년'], axis=1, inplace=True)
    
    data_result.head()

    -- 출력 --

     

     

    인덱스 재지정하여 데이터 정리 

    data_result.set_index('구별', inplace=True)
    data_result.head()

    -- 출력 --

     

     

    상관관계 살펴보기 

    상관계수가 0.2이상인 데이터를 비교한다.

    data_result.corr()

    -- 출력 --

    전체 인구수와 소계(CCTV 수)와의 상관계수는 0.232555로 아주 약한 상관관계이다.
    (0.2이상이니까 약한 상관관계를 의미한다.)

    그러므로 구별 인구대비 CCTV현황을 분석하고자 한다.
    상대적으로 CCTV가 적거나 맣은 구를 찾는 것은 의미를 가진다.

     

    CCTV 비율 데이터 만들기 

    data_result['CCTV비율'] = data_result['소계'] / data_result['인구수']
    data_result['CCTV비율'] = data_result['CCTV비율'] * 100
    data_result.head()

    -- 출력 --

     

     

    CCTV비율이 높은 구

    data_result.sort_values(by='CCTV비율', ascending=False).head()

    -- 출력 --

    종로구, 용산구, 중구, 강남구, 금천구 순으로 CCTV비율이 높다.

     

    CCTV비율이 낮은 구

    data_result.sort_values(by='CCTV비율', ascending=True).head()

    -- 출력 --

    강서구, 송파구, 중랑구, 강동구, 광진구 순으로 CCTV비율이 낮다.

     

     

     

     

     

     

     

    반응형
    Contents

    포스팅 주소를 복사했습니다

    이 글이 도움이 되었다면 공감 부탁드립니다.