Python/Crawler 썸네일형 리스트형 PYTHON 크롤링을 이용한 만개의 레시피 크롤링 - 1 크롤링 공부를 하면서 항상 숙지해야 할 점이 크롤링 하는 것은 자유지만 타인의 콘텐츠를 무단으로 사용하면 안된다는 것이다.상업적인 용도로 사용할 때에는 저작권자의 허락을 받아야 한다.안그러면 철컹철컹 레시피를 제공하는 사이트로 만개의 레시피(http://www.10000recipe.com/)라는 곳이 있다.이 사이트를 크롤링 해본다. 0. 주소 분석 기본 주소 : http://www.10000recipe.com/검색 주소 : http://www.10000recipe.com/recipe/list.html?q=샌드위치&order=reco&page=1 보면 알겠지만 아주 단순하다. 검색 주소 : http://www.10000recipe.com/recipe/list.html?q=&order=reco&page= .. PYTHON 크롤링을 이용한 수산식품 분석하기 - 3 API를 제공하지 않는 정보는 어떻게 크롤링 하여야 할까?SNS 크롤링 도중 비정형 데이터의 처리가 어렵다는 것을 깨닫고 정형 데이터들을 먼저 모으기로 결심했다.사용한 웹 사이트는 국립수산과학원(https://www.nifs.go.kr)의 해양수산물성분표이다.수산물 성분표는 다음과 같이 어류, 패류, 연체류, 갑각류, 해조류, 기타 분류로 나뉘어져 있고10개 단위로 목록을 보여준다.처음에는 셀레니움을 사용해서 동적 컨트롤을 할 까 생각했지만 주소를 보니 간단하게 되어있어 Beautifulsoup로만 진행하였다.1. 먼저 검색표의 주소를 분석한다.목록 : https://www.nifs.go.kr/page?id=aq_seafood_1_01&type=search&searchStr=&searchField.. PYTHON 크롤링을 이용한 수산식품 분석하기 - 2 검색 결과에 따른 데이터 수집 진행에 앞서 API 사용 방법에 대해 포스팅하고 넘어간다.사용할 API는https://www.foodsafetykorea.go.kr/apiMain.do식품안전나라에서 제공하는 식품영양성분DB이다.API키는 개인이 발급받으면 되고, API 형식은 다음과 같다.http://openapi.foodsafetykorea.go.kr/api/keyId/serviceId/dataType/startIdx/endIdxKeyIdServiceIDdataTypestartIdxendIdx본인 API Key사용하고자하는 DBXML/JSON 선택시작 ROW끝 ROW시작 ROW와 끝 ROW는 천 개를 넘길 수 없다.따라서 5천개를 가져오려면1~10001001~20002001~30003001~40004.. PYTHON 크롤링을 이용한 수산식품 분석하기 - 1 준비하는 과제 중, 수산식품 데이터베이스를 분석하여 사용자의 기호도를 추출하는 내용이 있다.짧게 작성한 시나리오는 다음과 같다.1. 수산식품 인기 검색어 가져오기2. 일별로 테이블에 집어넣기3. 추출된 인기 검색어를 바탕으로 SNS에 검색하기4. 결과값으로 나온 비정형 데이터들을 분석하기첫번째로, 수산식품 인기검색어를 가져오기 위해 네이버 데이터랩을 이용하려 했다. 네이버 데이터랩에는 쇼핑인사이트 기능을 제공하고 있다.이 곳에서 인기 검색어를 추출해내고자 했다.분야는 식품 > 수산식품이다.API를 사용하면 좋겠지만 인기검색어는 제공하지 않는다.이 부분이 필요한데 직접 긁어오려고 하면 잘 되지 않는다.https://datalab.naver.com/shoppingInsight/sCategory.n.. 이전 1 2 다음