계약 노동

본문 바로가기

Hadoop 실습 - jar 파일을 만들어 hdfs 사용해보기 /home/centos/hadoop-2.9.2/share/hadoop/common /home/centos/hadoop-2.9.2/share/hadoop/mapreduce 다음 경로에 있는 jar 파일 12개를 이클립스 프로젝트의 lib에 추가해준다. package hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class hdfsFile { public..

VMware를 이용하여 Hadoop 완전분산모드 구축 0. 시작 이전에 - VMware는 설치되어 있다는 가정하에 포스팅을 작성하였다. - 작성자는 Hadoop 핵 초보이므로 틀린 곳이 있을 수 있다. - 환경 : VMware 12 Pro , 호스트 : Windows 10 64 Bit (Master) / Windows 7 64 Bit (Slave), 게스트 : CentOS7 64 Bit - 네트워크 구성도 1. 공통 설정 Vagrant를 사용해보려 했으나 Vmware는 라이선스가 필요해 사용이 어려웠다. 때문에 내 컴퓨터에서 Slave 친구들은 전부 세팅해준 후 다른 PC로 옮겼다. 별다른 건 해주지 않고 java 세팅과 yum upgrade만 해주었다. 마스터 친구는 JAVA 세팅만 일단 해주었다. VMware로 하둡을 구축할 때 호스트 피씨가 한 대라면..

KendoUI를 이용하여 Range 그래프 그리기

네이버 블로그를 크롤링하여 단어 빈도 분석하기 처음 이 생각을 한 계기는 깔리고 깔린 바이럴 마케팅을 피해 검색해보고 싶어서였다. 우리 동네 맛집이라고 검색하면 내가 뻔히 가본 곳인데도 (맛집이 아닌데도) 상위 목록에 맛집이라고 도배가 되어 있는 것을 흔하게 볼 수 있다. 그런 결과가 검색 품질을 떨어뜨리고 정보에 선택에 있어서 나쁜 영향을 미친다는 것을 어지간한 사람이면 다 알것이다. 그래서 단어 빈도를 알아내, 너무 많은 단어는 제외하여 서치할 수 있도록 도움을 주는 방식을 생각해보았다. 1. 블로그 크롤링하기 블로그 크롤링은 어렵지 않다. 물론 검색 단어의 블로그 검색 결과(포스팅) 전체를 크롤링하는 것은 쉬운 일이 아니다. 하지만 나는 검색단어 주변에 있는 글자만 검색하면 됐고 이는 미리보기 식으로 제공하는 내용 3줄로도 충분하다. 이유는 블..

CentOS7 기반으로 Hadoop Standalone 설치하기 1. CentOS7 설치 기본적으로 CentOS7을 설치해주어야 한다. 나는 VMware에 설치하였으므로 다음과 같이 환경구성을 해주었다. 오로지 테스트용도이므로 많은 자원은 할당해주지 않았다. 설치 이후 업데이트 명령어를 통해 저장소를 업데이트 해준다. yum -y update 꽤 오랜 시간이 걸리므로 충분히 기다려준다. 이후 어떠한 불의의 사고에 대비해 스냅샷을 찍어준다. 이렇게 해주면 돌아가기도 쉽고, 클론을 떠놓아서 다음부턴 CentOS를 설치하지 않아도 된다. 2. Java 설치 다음엔 자바를 설치하여주는데 대부분 설치가 되어있다. java -version 명령어를 통해 java 버전을 확인해준다. 3. Hadoop 설치 먼저 wget을 설치해준다 yum install -y wget wget을 ..

목록 더보기

티스토리툴바