주제 : 인구대비 상대적으로 CCTV가 적은 구를 찾아보자. 인구 데이터와 CCTV는 상관관계가 있을까?
- 서울시 구별 CCTV 현황 데이터 확보 (Python, Pandas)
- 인구 현황 데이터 확보 (Python, Pandas)
- CCTV 데이터와 인구 형황 데이터 합치기 (Python, Pandas) ✔
- 데이터 정리하고 정렬하기 (Python, Pandas) ✔
- 그래프를 그릴 수 있는 능력 (Matplotlib)
- 전체적인 경향을 파악할 수 있는 능력 (Regression using Numpy)
- 그 경향에서 벗어난 데이터를 강조하는 능력 (Insight and Visualization)
서울시 CCTV 현황과 인구 현황
데이터 합치기
data_result = pd.merge(CCTV_Seoul, pop_Seoul, on='구별')
data_result.head()
-- 출력 --
불필요한 컬럼 제거
del data_result['2013년도 이전']
del data_result['2014년']
data_result.drop(['2015년', '2016년'], axis=1, inplace=True)
data_result.head()
-- 출력 --
인덱스 재지정하여 데이터 정리
data_result.set_index('구별', inplace=True)
data_result.head()
-- 출력 --
상관관계 살펴보기
상관계수가 0.2이상인 데이터를 비교한다.
data_result.corr()
-- 출력 --
전체 인구수와 소계(CCTV 수)와의 상관계수는 0.232555로 아주 약한 상관관계이다. (0.2이상이니까 약한 상관관계를 의미한다.)
그러므로 구별 인구대비 CCTV현황을 분석하고자 한다. 상대적으로 CCTV가 적거나 맣은 구를 찾는 것은 의미를 가진다. |
CCTV 비율 데이터 만들기
data_result['CCTV비율'] = data_result['소계'] / data_result['인구수']
data_result['CCTV비율'] = data_result['CCTV비율'] * 100
data_result.head()
-- 출력 --
CCTV비율이 높은 구
data_result.sort_values(by='CCTV비율', ascending=False).head()
-- 출력 --
종로구, 용산구, 중구, 강남구, 금천구 순으로 CCTV비율이 높다. |
CCTV비율이 낮은 구
data_result.sort_values(by='CCTV비율', ascending=True).head()
-- 출력 --
강서구, 송파구, 중랑구, 강동구, 광진구 순으로 CCTV비율이 낮다. |