Python 썸네일형 리스트형 Python과 Google API를 이용하여 인스타그램 크롤링 이후 이미지를 분석해보기 크롤링만 백날하면 무얼하나 크롤링은 파알못인 내가 봐도 어렵지 않은 존재다. 물론 천재들이 만들어준 라이브러리들이 다 해주는거지만 말이다. 모종의 이유로 인스타그램을 크롤링해보다가 넘쳐나는 이미지들을 어떻게 하면 괜찮은 정보로 만들 수 있을까 생각하게 되었다. 구글링해보면 좋은 방법들이 넘쳐나지만 내 방식대로 하고 싶은 마음이 생겼다. 이렇게 저렇게 시도해보다가 DATE도 가져올 수 있고, TAG도 가져올 수 있고, IMG도 가져올 수 있게 되었다. 그런데 이걸로 뭘 하지? 일단 매일 하던 일을 해봤다 인스타그램은 트위터와 달리 크롤링하기가 만만치 않다. 웹에 대해선 잘 모르지만 스크롤에 따라 동적으로 DIV가 변하기 때문인데 첫 번째 포스팅을 찾아간다고 모든 DIV가 남아있지 않다. 스크롤에 따라 사라.. NLTK 라이브러리 사용 중간에 멈춤 현상 트위터 분석을 하다가 어떤 구간에서 라이브러리가 작동하지 않는 것을 알게 되었다. 스트링도 쪼개보고 한 트윗씩도 해보고 하다가 문제점을 찾게 되었다. Notepad기준으로 나타나는 결과는 Process finished with exit code -1073740940 (0xC0000374) 값이다. 문제점은 트윗 속에 있는 이모티콘으로 이모티콘들을 제거하면 작동이 잘 된다. 훌륭하신 분이 해결법을 만들어 놓았다. https://github.com/konlpy/konlpy/issues/215 Python에서 matplotlib 사용시 한글 폰트 출력하기 Python에서 시각화 작업을 하다보면 영어가 아닌 한글을 출력해야 하는 경우가 있다. 이 때에 다음과 같이 사용해준다. 기준은 윈도우 10이다. from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False fontpath = "C:/Windows/Fonts/malgun.ttf" font_name = font_manager.FontProperties(fname=fontpath).get_name() rc('font',family=font_name) #한글 폰트 사용하기 위한 세팅 사용해보면 한글이 깨지지 않는 것을 확인할 수 있다. Python을 기반으로 정부 API를 사용하여 Json 파일 처리하기 API(json) with Python 대용량 데이터의 자료 관리 기술과 자료 분석 기술이 중요해지는 가운데 공공데이터포털과 같은 정부 사이트에서 공공기관이 생성 또는 취득하여 관리하고 있는 공공데이터를 제공하고 있다. 쉽고 편리하게 이용이 가능하도록 공공데이터를 파일데이터, 오픈 API, 시각화 등으로 제공하고 있으며 누구나 이용이 가능하며 영리 목적의 이용을 포함한 자유로운 활용이 보장된다. 이 위키에서는 데이터의 수월한 활용을 위하여 Python을 기반으로 오픈 API를 사용해보고 Json 데이터를 처리해본다. 1. Python 환경설정 Python 환경설정은 [해당 페이지](Python 환경설정)에 분류되어 있다. 2. 오픈 API 2.1 오픈 API란? API는 Application Progra.. Python 설치 및 환경설정 Python 환경설정 1. Python 1991년에 발표된 인터프리터 방식의 프로그래밍 언어. 공식페이지 2. Python 설치 파이썬 공식 홈페이지의 다운로드 페이지에서 최신 버전을 운영체제에 맞게 다운로드 받는다. 다운 받은 exe 파일을 실행 후 "Install Now"를 선택해 설치를 진행한다. 이 때, Add Python 3.7 to PATH를 클릭 해 PATH가 등록될 수 있도록 한다. 설치 완료 후 시작 -> 모든 프로그램 -> Python을 확인한다. 3. 환경변수 설정 설치과정에서 환경변수를 추가하지 못했거나, 수정하고 싶은 경우가 생길경우 다음 과정을 따라가면 된다. 윈도우 > 시스템을 클릭한다. 정보 > 시스템 정보를 클릭한다. 고급 시스템 설정을 클릭한다. 시스템 속성 > 환경변수를.. PYTHON 크롤링을 이용한 만개의 레시피 크롤링 - 1 크롤링 공부를 하면서 항상 숙지해야 할 점이 크롤링 하는 것은 자유지만 타인의 콘텐츠를 무단으로 사용하면 안된다는 것이다.상업적인 용도로 사용할 때에는 저작권자의 허락을 받아야 한다.안그러면 철컹철컹 레시피를 제공하는 사이트로 만개의 레시피(http://www.10000recipe.com/)라는 곳이 있다.이 사이트를 크롤링 해본다. 0. 주소 분석 기본 주소 : http://www.10000recipe.com/검색 주소 : http://www.10000recipe.com/recipe/list.html?q=샌드위치&order=reco&page=1 보면 알겠지만 아주 단순하다. 검색 주소 : http://www.10000recipe.com/recipe/list.html?q=&order=reco&page= .. PYTHON 크롤링을 이용한 수산식품 분석하기 - 3 API를 제공하지 않는 정보는 어떻게 크롤링 하여야 할까?SNS 크롤링 도중 비정형 데이터의 처리가 어렵다는 것을 깨닫고 정형 데이터들을 먼저 모으기로 결심했다.사용한 웹 사이트는 국립수산과학원(https://www.nifs.go.kr)의 해양수산물성분표이다.수산물 성분표는 다음과 같이 어류, 패류, 연체류, 갑각류, 해조류, 기타 분류로 나뉘어져 있고10개 단위로 목록을 보여준다.처음에는 셀레니움을 사용해서 동적 컨트롤을 할 까 생각했지만 주소를 보니 간단하게 되어있어 Beautifulsoup로만 진행하였다.1. 먼저 검색표의 주소를 분석한다.목록 : https://www.nifs.go.kr/page?id=aq_seafood_1_01&type=search&searchStr=&searchField.. 이전 1 ··· 3 4 5 6 7 다음