Carpe diem

NLP 관련 석사 과정 재학 중 (2022.03 ~ )

Python/crawling 7

Reddit data Crawling (Reddit API)

[Reddit Data 크롤링을 하기 위한 5가지 방법] 1. Manual Scraping - 쉽지만, 속도 측면에서 별로 효율적이지 못함 2. Reddit API - 손쉽게 게시물 크롤링 가능 .. Bt Reddit 스레드의 게시물 수를 1,000개로 제한 3. Third-Party APIs - 효과적이고, 확장 가능하지만 비용효율적이지 못함 4. Custom Scraping Scripts - 사용자 정의, 확장 가능하지만 높은 코딩 수준 요구, 비용효율적이지 못함 5. Click Once & Scrape Repetitively - 간편하지만, 1달에 9만원 정도 비용 지불 필요 (2주 무료체험 가능) Reddit API를 이용한 Reddit Data 크롤링 1. Reddit 홈페이지 회원 가입 2. ..

Python/crawling 2022.12.08

인스타그램 크롤링 (해시태그, 계정 ID)

교수님이 크롤링 관련 일을 주셔서, 기록용으로 업로드 ~ 0. 해시 태그 이용 input: 해시 태그 + 크롤링 게시글 개수 output: 게시글의 내용, 해시태그, 장소, 좋아요 수 1. 계정 ID 이용 input: 인스타 계정 아이디 output1: 계정 아이디, 게시글 수, 팔로워 수 output2: 계정 아이디, 최근 9개 게시글의 좋아요 수, 댓글 수, 본문, 해시태그, 장소 tqdm 라이브러리를 사용해 게시글 크롤링이 잘 진행되고 있는지도 확인해 보았다. 또한 댓글 수를 계산하기 위해, 댓글 창 부분의 '+' 버튼을 계속 누르도록 설정해주는 부분도 추가해 주었다. 아 그리고 크롤링할 때는 copy to xpath 기능을 활용함 ! * 크롤링한 데이터는 공부 용도로만 사용하였음

Python/crawling 2022.04.29

[크롤링] 외국인 관광객 데이터 다루기 (2)

[개요] 외국인 관광객 데이터 다루기 1편에서 수행한 데이터 분석 및 데이터 전처리의 내용을 함수화하여 간편하게 사용할 수 있도록 하고, 추가로 전처리한 데이터를 시각화 하는 방법에 대해 다룬다. 1편에서 수행한 데이터 분석 및 전처리 1. 불러올 데이터의 형태 파악 2. 엑셀 파일 파이썬으로 불러오기 (pd.read_excel()) 3. 데이터 탐색 (info(), describe()) 4. 기준년월 컬럼 추가 5. 국적 데이터만 남기기 (대륙 데이터 제거) 6. 대륙 컬럼 만들기 7. 국적별 관광객비율(%) 살펴보기 8. 전체 외국인 관광객 대비 국적별 관광객 비율 살펴보기 * 해당 포스팅에서 다루고 있는 모든 내용은 다음 서적을 참고하였습니다. 직장인을 위한 데이터 분석 실무 with 파이썬(개정판..

Python/crawling 2021.09.07

[크롤링] 3. 외국인 관광객 데이터 다루기 (1)

[개요] 월별 외국인 관광객 통계에 대한 데이터를 수집하고, 파이썬에서 이를 전처리한다. 전처리한 결과를 시각화하여 국적별로 외국인 관광객 수에 어떤 계절적인 패턴이 있는지, 외국인 관광객의 방문이 증가 또는 감소한 원인이 되는 이벤트들이 무엇인지 분석한다. * 해당 포스팅에서 다루고 있는 모든 내용은 다음 서적을 참고하였습니다. 직장인을 위한 데이터 분석 실무 with 파이썬(개정판)(위키북스 데이터 사이언스 시리즈 63) ‘데이터 분석은 좋은 질문에서 시작합니다’이 책에서는 누구나 궁금했던 그 질문에 대해 데이터로 답해 봅니다. 이 책은 파이썬을 처음 접하는 마케팅, 영업, 기획 실무 담당자들이 파이썬을 book.naver.com [사용 데이터] 한국관광공사에서 관광 목적으로 입국한 외국인 월벌 통계..

Python/crawling 2021.08.30

[크롤링] 2. 유튜브 랭킹 데이터 다루기

[개요] 유튜브에서 제공하는 채널 랭킹과 상세 정보 (채널명, 카테고리 정보, 구독자 수, 조회 수, 동영상 수)를 수집, 시각화한다. * 해당 포스팅에서 다루고 있는 모든 내용은 다음 서적을 참고하였습니다. 직장인을 위한 데이터 분석 실무 with 파이썬(개정판)(위키북스 데이터 사이언스 시리즈 63) ‘데이터 분석은 좋은 질문에서 시작합니다’이 책에서는 누구나 궁금했던 그 질문에 대해 데이터로 답해 봅니다. 이 책은 파이썬을 처음 접하는 마케팅, 영업, 기획 실무 담당자들이 파이썬을 book.naver.com [코드] 0. 필요 라이브러리 import, 유튜브 랭킹 페이지 접속 from selenium import webdriver from bs4 import BeautifulSoup import t..

Python/crawling 2021.08.27

[크롤링] 1. 음원 정보 수집하기

[개요] 국내 여러 음원 서비스(멜론, 지니, 벅스)에서 노래 순위를 수집하고, 통합 * 해당 포스팅에서 다루고 있는 모든 내용은 다음 서적을 참고하였습니다. 직장인을 위한 데이터 분석 실무 with 파이썬(개정판)(위키북스 데이터 사이언스 시리즈 63) ‘데이터 분석은 좋은 질문에서 시작합니다’이 책에서는 누구나 궁금했던 그 질문에 대해 데이터로 답해 봅니다. 이 책은 파이썬을 처음 접하는 마케팅, 영업, 기획 실무 담당자들이 파이썬을 book.naver.com [코드] 0. 필요 라이브러리 import, 음원 사이트 접속 from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Chrome('./chromedrive..

Python/crawling 2021.08.25

HTML 태그 탐색하기

[개요] HTML 태그를 살펴보는 방법 (부모 태그, 자식 태그 등)에 대해 다룬다. * 해당 포스팅에서 다루고 있는 모든 내용은 다음 서적을 참고하였습니다. 직장인을 위한 데이터 분석 실무 with 파이썬(개정판)(위키북스 데이터 사이언스 시리즈 63) ‘데이터 분석은 좋은 질문에서 시작합니다’이 책에서는 누구나 궁금했던 그 질문에 대해 데이터로 답해 봅니다. 이 책은 파이썬을 처음 접하는 마케팅, 영업, 기획 실무 담당자들이 파이썬을 book.naver.com [코드] 1. 크롤링 대상 탐색하기 1) 태그를 출력해 보았을 때, 원하는 개수만큼 들어있는 경우 F12키를 누르면 위 그림과 같이 브라우저에서 HTML 소스를 확인할 수 있다. 태그를 한 단계씩 살피다보면 노래 한 곡의 정보를 가지는 태그를 ..

Python/crawling 2021.08.24