본문 바로가기

Python/Crawler

네이버 실시간 검색어 크롤링 코드 코드 from bs4 import BeautifulSoup import urllib.request def top_word(): word_list = [] url = 'https://www.naver.com/' sourcecode = urllib.request.urlopen(url).read() soup = BeautifulSoup(sourcecode, 'html.parser') soup = soup.find('ul', 'ah_l') for i in soup.find_all('span', 'ah_k'): word_list.append(i.get_text()) return word_list word_list = top_word() for i in range(len(word_list)): print('#{0}..
Python - 네이버 지도 API를 이용하여 서브웨이 지도 만들기 지도 시각화를 해본 적이 없어 라이브러리도 익힐겸, API도 사용해볼겸 진행해보았다. 준비물은 다음과 같다. - Jupyter Notebook - 네이버 API 사용자 인증 1. 먼저 서브웨이 체인점들의 주소를 크롤링 해온다. 주소는 네이버에 검색해서 크롤링해오는 방법도 있지만, 서브웨이 홈페이지에서 직접 가져왔다. 보면 2019년 6월 현재 350개의 매장이 존재하며 매장명과 매장주소를 같이 제공하고 있다. 페이지가 넘어가며 url이 바뀌는 편한 구조이기 때문에 크롤링은 쉽다. 머리를 잘 써서 page_number를 지정해주지 않아도 알아서 크롤링 해오게 할 수 있지만 무난하게 페이지를 지정해주었다. def make_subway_list(): url = 'http://subway.co.kr/storeS..
Beautiful Soup Documentation 이 문서는 Beautiful Soup 4.4.0 documentation를 참고하였습니다. 두고두고 참고하려고 작성한 용도이며 더 자세한 정보는 원본 문서를 참고해주세요. ...더보기 Table Of Contents Beautiful Soup Documentation Getting help Quick Start Installing Beautiful Soup Problems after installation Installing a parser Making the soup Kinds of objects Tag Name Attributes Multi-valued attributes NavigableString BeautifulSoup Comments and other special strings Navigat..
우리 지역의 성범죄자는 몇 명이나 될까? (1) - python을 이용한 크롤링, 시각화 - 이 포스팅은 실패기입니다. - 모든 사람이 성공할 순 없으니까요 . . . SQL 공부를 하다가 너무 재미없고 막대 그래프 위주 시각화에서 벗어나 지도를 이용한 시각화를 해보고 싶었다. 제일 만만한게 오픈 API이고 그 중에서도 성범죄를 선택하였다. 아무래도 생존과 직결되는 문제니까 말이다. 데이터는 공공 API를 이용했다. 근데 엄~청 접근하기 힘들게 만들어져있다. 어떻게 막은건지 몰라도 직접적으로 검색하기 힘들다..ㅎㅎ 이해X 범죄자 인권이 그렇게 중요한가. 아무튼 이 API는 XML 파일이라 tag를 가져오기만 하면 된다. 이렇게 실시간으로 데이터를 준다. bs4를 이용해 파싱한 이후 가져오면 끝. def get_real_criminal(): data_list = ['강원도', '경기도', '경..
네이버 블로그를 크롤링하여 단어 빈도 분석하기 처음 이 생각을 한 계기는 깔리고 깔린 바이럴 마케팅을 피해 검색해보고 싶어서였다. 우리 동네 맛집이라고 검색하면 내가 뻔히 가본 곳인데도 (맛집이 아닌데도) 상위 목록에 맛집이라고 도배가 되어 있는 것을 흔하게 볼 수 있다. 그런 결과가 검색 품질을 떨어뜨리고 정보에 선택에 있어서 나쁜 영향을 미친다는 것을 어지간한 사람이면 다 알것이다. 그래서 단어 빈도를 알아내, 너무 많은 단어는 제외하여 서치할 수 있도록 도움을 주는 방식을 생각해보았다. 1. 블로그 크롤링하기 블로그 크롤링은 어렵지 않다. 물론 검색 단어의 블로그 검색 결과(포스팅) 전체를 크롤링하는 것은 쉬운 일이 아니다. 하지만 나는 검색단어 주변에 있는 글자만 검색하면 됐고 이는 미리보기 식으로 제공하는 내용 3줄로도 충분하다. 이유는 블..
Python과 Google API를 이용하여 인스타그램 크롤링 이후 이미지를 분석해보기 크롤링만 백날하면 무얼하나 크롤링은 파알못인 내가 봐도 어렵지 않은 존재다. 물론 천재들이 만들어준 라이브러리들이 다 해주는거지만 말이다. 모종의 이유로 인스타그램을 크롤링해보다가 넘쳐나는 이미지들을 어떻게 하면 괜찮은 정보로 만들 수 있을까 생각하게 되었다. 구글링해보면 좋은 방법들이 넘쳐나지만 내 방식대로 하고 싶은 마음이 생겼다. 이렇게 저렇게 시도해보다가 DATE도 가져올 수 있고, TAG도 가져올 수 있고, IMG도 가져올 수 있게 되었다. 그런데 이걸로 뭘 하지? 일단 매일 하던 일을 해봤다 인스타그램은 트위터와 달리 크롤링하기가 만만치 않다. 웹에 대해선 잘 모르지만 스크롤에 따라 동적으로 DIV가 변하기 때문인데 첫 번째 포스팅을 찾아간다고 모든 DIV가 남아있지 않다. 스크롤에 따라 사라..
Python을 기반으로 정부 API를 사용하여 Json 파일 처리하기 API(json) with Python 대용량 데이터의 자료 관리 기술과 자료 분석 기술이 중요해지는 가운데 공공데이터포털과 같은 정부 사이트에서 공공기관이 생성 또는 취득하여 관리하고 있는 공공데이터를 제공하고 있다. 쉽고 편리하게 이용이 가능하도록 공공데이터를 파일데이터, 오픈 API, 시각화 등으로 제공하고 있으며 누구나 이용이 가능하며 영리 목적의 이용을 포함한 자유로운 활용이 보장된다. 이 위키에서는 데이터의 수월한 활용을 위하여 Python을 기반으로 오픈 API를 사용해보고 Json 데이터를 처리해본다. 1. Python 환경설정 Python 환경설정은 [해당 페이지](Python 환경설정)에 분류되어 있다. 2. 오픈 API 2.1 오픈 API란? API는 Application Progra..