COVID-19 이전과 이후 국내 시·도별 수출 현황 분석
by Cori개요
코로나가 국내에서 처음 발생한 시점인 2020년 2월을 기준으로, 코로나 발생 전 (2019.08 ~ 2020.01)과 코로나 발생 후 (2020.02 ~ 2020.07)의 국내 시·도 별 수출입 실적을 분석하고, 시각화한다. 또한, 최종 결과물을 GUI 프로그램에 적용한다.
설계
1. 수집 대상 데이터
1) 수출입 무역통계 사이트의 시도별 수출입 실적 데이터 (2019.08 ~ 2020.07)
2) 수출입 무역통계 사이트의 시도별 품목별 수출입 실적 데이터 (2019.08 ~ 2020.07)
-> 시도별 수출입 실적 차이가 가장 많이 나는 지역 (울산광역시, 충청북도, 충첨남도 등)을 대상으로 조회
3) 대한민국 행정구역 (SHP) 시도 데이터 -> geojson 파일로 변환
SHP 지도 좌표계가 UTM-K로 되어 있기 때문에, Folium에서 사용하기 어려우며 이를 위, 경도 형태의 WGS84 형태로 변경해야 한다.
이에 대한 자세한 내용은 다음을 참고하면 좋을 것 같다.
위 과정을 수행하기 귀찮은 사람들을 위해, 해당 프로젝트에서 사용한 시도별 json 파일을 업로드 해 둔다.
2. 산출물 설계
1) 코로나 발생 전·후 수출금액 차이 조회가 가능한 데이터셋
시도명 | 수출건수(발생 전) | 수출금액(발생 전) | 수출건수(발생 후) | 수출금액(발생 후) | 차액 |
STRING | INT | INT | INT | INT | INT |
2) 코로나 발생 전·후 특정 지역 수출품목 별 수출금액 차이 조회가 가능한 데이터셋
품목명 | 수출건수 (발생 전) | 수출금액 (발생 후) | 수출건수 (발생 전) | 수출금액 (발생 후) | 차액 |
STRING | INT | INT | INT | INT | INT |
3) 특정 지역의 월별 수출금액 조회가 가능한 데이터셋
기간 | 수출건수 | 수출금액 | 수출금액_단위 |
STRING | INT | INT | INT |
4) 지도 시각화를 위한, 위·경도 정보가 포함된 데이터셋
시도명 | 수출건수 | 수출금액 | 수출금액_단위 | 위도 | 경도 |
STRING | INT | INT | INT | FLOAT | FLOAT |
5) 지도 시각화를 위한, 시도코드 정보가 포함된 데이터셋
시도명 | 차액 | CITY_CODE |
STRING | INT | STRING |
6) GUI 프로그래밍 작성을 위한 라이브러리 선정 (tkinter)
구현
1. 시·도 별 수출입 실적 데이터 전처리 및 시각화 (2019.08 ~ 2020.07 데이터)
0) csv 데이터 -> DataFrame으로 변환
1) 코로나 전·후 데이터 분리 및 전처리
2) 전처리한 데이터를 시·도 별 위도,경도 데이터셋과 병합 (dataset1)
* 시·도 별 위, 경도 데이터셋 파일은 임의로 만들었으며, 아래에 첨부하였다.
3) 전처리한 데이터를 이용하여 시도별 코로나 전·후 수출금액 차액 데이터셋 (dataset2) 생성
4) 시·도별 코로나 발생 전,후 수출금액 차이 시각화를 위한 데이터셋 (dataset3) 생성
5) 코로나 발생 전,후 시·도 별 수출금액 데이터셋 (dataset1) 시각화
· 코로나 발생 이전
· 코로나 발생 이후
6) 코로나 발생 전·후 수출차액 데이터셋 (dataset3) 시각화
· geojson 파일 import
· 데이터 추가 전처리 (차액크기 조절, 차액이 플러스인 지역과 마이너스인 지역 구분), dataset4
· 수출금액이 감소한 지역 정보 시각화
울산광역시가 가장 크게 손해를 본 것을 확인할 수 있다.
· 수출금액이 증가한 지역 정보 시각화
충청북도가 가장 크게 이득을 본 것을 확인할 수 있다.
2. 시도별 품목별 수출입 실적 데이터 (2019.08 ~ 2020.07) 전처리 및 시각화
0) 시도별 수출차액이 큰 지역 조회
1) 시도별 품목별 수출입 실적 데이터 전처리
시·도 별 품목별 데이터의 성질명에는 1, 2, 3, 가, 나, 다, 라, 마 ... 와 같이 분류가 섞여있기 때문에, 분류단위를 통일하는 작업 필요
· 성질명 분류단위 통일 (대분류, 중분류 -> 중분류)
· Pie Chart를 그리기 위해 차액 비율 컬럼 추가
2) 특정 지역의 코로나 발생 전, 후 품목별 수출 차액 데이터 시각화
3) 특정 지역의 수출금액 추이 시각화
-> 코로나 발생 전, 후 울산광역시의 수출차액이 가장 크게 나타나므로, 2019.08 ~ 2020.07 기간의 울산광역시 수출금액을 시각화한다.
코로나 발생 이후 (2020.02 ~), 울산광역시의 수출금액이 급락한 것을 확인할 수 있다.
3. GUI 프로그래밍 (데모)
프로젝트를 통해 배운 점
1. pandas를 이용한 실사용 데이터 분석 방법
2. choropleth를 이용한 지도 시각화 방법
3. tkinter를 이용한 GUI 프로그래밍
소감
미니프로젝트라고는 하였지만, 생각보다 많은 기간을 소요했던 프로젝트 .. 자칫하면 늘어질 수도, 설렁설렁 진행할 수도 있던
프로젝트를 팀원들과 협동함으로써 마무리까지 잘 할 수 있었던 프로젝트였던 것 같다. 혼자 진행하는 프로젝트가 아닌 여럿이
진행하는 프로젝트 이다보니 시간 맞추기도 쉽지 않고, 원하는 사항들도 달라 당황스러웠던 적들도 있지만, 잘 끝내서 좋음 !
추가로 작업할 내용
1. 수집한 데이터 MySQL Database에 저장
2. 지도를 클릭하면 지도 값 보여주기 or url 연결하기
3. tkinter UI 다듬기
4. 국내 시·도 별 수입실적 분석
4. 국내 시·도 별 수입실적 분석
1) 코로나 발생 전·후 수입금액 차액 분석 (수입이 줄어든 지역)
2) 코로나 발생 전·후 수입금액 차액 분석 (수입이 증가한 지역)
3) 코로나 발생 전 시·도 별 수입금액 시각화
4) 코로나 발생 후 시·도 별 수입금액 시각화
'AI > Projects' 카테고리의 다른 글
인스타그램 크롤링 (해시태그, 계정 ID) (8) | 2022.04.29 |
---|---|
좌충우돌 이상행동 탐지 CCTV 프로젝트 (3) | 2022.02.13 |
[Elastic Search] 트위터 데이터 실시간으로 수집, 시각화하기 (0) | 2021.10.31 |
도로주행 영상에서 신호등 검출하기 (4) | 2021.10.29 |
블로그의 정보
코딩하는 오리
Cori