본문 바로가기

Python/Crawler

PYTHON 크롤링을 이용한 만개의 레시피 크롤링 - 1 크롤링 공부를 하면서 항상 숙지해야 할 점이 크롤링 하는 것은 자유지만 타인의 콘텐츠를 무단으로 사용하면 안된다는 것이다.상업적인 용도로 사용할 때에는 저작권자의 허락을 받아야 한다.안그러면 철컹철컹 레시피를 제공하는 사이트로 만개의 레시피(http://www.10000recipe.com/)라는 곳이 있다.이 사이트를 크롤링 해본다. 0. 주소 분석 기본 주소 : http://www.10000recipe.com/검색 주소 : http://www.10000recipe.com/recipe/list.html?q=샌드위치&order=reco&page=1 보면 알겠지만 아주 단순하다. 검색 주소 : http://www.10000recipe.com/recipe/list.html?q=&order=reco&page= ..
PYTHON 크롤링을 이용한 수산식품 분석하기 - 3 API를 제공하지 않는 정보는 어떻게 크롤링 하여야 할까?SNS 크롤링 도중 비정형 데이터의 처리가 어렵다는 것을 깨닫고 정형 데이터들을 먼저 모으기로 결심했다.​사용한 웹 사이트는 국립수산과학원(https://www.nifs.go.kr)의 해양수산물성분표이다.​수산물 성분표는 다음과 같이 어류, 패류, 연체류, 갑각류, 해조류, 기타 분류로 나뉘어져 있고10개 단위로 목록을 보여준다.처음에는 셀레니움을 사용해서 동적 컨트롤을 할 까 생각했지만 주소를 보니 간단하게 되어있어 Beautifulsoup로만 진행하였다.​1. 먼저 검색표의 주소를 분석한다.​목록 : https://www.nifs.go.kr/page?id=aq_seafood_1_01&type=search&searchStr=&searchField..
PYTHON 크롤링을 이용한 수산식품 분석하기 - 2 검색 결과에 따른 데이터 수집 진행에 앞서 API 사용 방법에 대해 포스팅하고 넘어간다.사용할 API는https://www.foodsafetykorea.go.kr/apiMain.do식품안전나라에서 제공하는 식품영양성분DB이다.​API키는 개인이 발급받으면 되고, API 형식은 다음과 같다.​http://openapi.foodsafetykorea.go.kr/api/keyId/serviceId/dataType/startIdx/endIdxKeyIdServiceIDdataTypestartIdxendIdx본인 API Key사용하고자하는 DBXML/JSON 선택시작 ROW끝 ROW시작 ROW와 끝 ROW는 천 개를 넘길 수 없다.따라서 5천개를 가져오려면1~10001001~20002001~30003001~40004..
PYTHON 크롤링을 이용한 수산식품 분석하기 - 1 준비하는 과제 중, 수산식품 데이터베이스를 분석하여 사용자의 기호도를 추출하는 내용이 있다.짧게 작성한 시나리오는 다음과 같다.​1. 수산식품 인기 검색어 가져오기2. 일별로 테이블에 집어넣기3. 추출된 인기 검색어를 바탕으로 SNS에 검색하기4. 결과값으로 나온 비정형 데이터들을 분석하기​첫번째로, 수산식품 인기검색어를 가져오기 위해 네이버 데이터랩을 이용하려 했다.​ 네이버 데이터랩에는 쇼핑인사이트 기능을 제공하고 있다.이 곳에서 인기 검색어를 추출해내고자 했다.​분야는 식품 > 수산식품이다.API를 사용하면 좋겠지만 인기검색어는 제공하지 않는다.​이 부분이 필요한데 직접 긁어오려고 하면 잘 되지 않는다.​https://datalab.naver.com/shoppingInsight/sCategory.n..