미분류/Hadoop

CentOS7 기반으로 Hadoop Standalone 설치하기

퐁스 2019. 4. 1. 16:37

1. CentOS7 설치

기본적으로 CentOS7을 설치해주어야 한다. 나는 VMware에 설치하였으므로 다음과 같이 환경구성을 해주었다. 오로지 테스트용도이므로 많은 자원은 할당해주지 않았다.

설치 이후 업데이트 명령어를 통해 저장소를 업데이트 해준다.

yum -y update 

꽤 오랜 시간이 걸리므로 충분히 기다려준다.
이후 어떠한 불의의 사고에 대비해 스냅샷을 찍어준다. 이렇게 해주면 돌아가기도 쉽고, 클론을 떠놓아서 다음부턴 CentOS를 설치하지 않아도 된다.

2. Java 설치

다음엔 자바를 설치하여주는데 대부분 설치가 되어있다.

java -version

명령어를 통해 java 버전을 확인해준다.

3. Hadoop 설치

먼저 wget을 설치해준다

yum install -y wget

wget을 이용하여 hadoop을 설치한다.

wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

다운 후 /opt 아래에 풀어준다

tar -zxvf hadoop-2.7.7.tar.gz -C /opt

이후 적당한 이름으로 변경해준다.

JAVA_HOME을 설정해주어야 하므로 vi로 환경설정을 연다.

vi hadoop/etc/hadoop/hadoop-env.sh 

이후 java 환경 변수를 export 해준다

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

4. Hadoop 테스트

mkdir ~/source
cp /opt/hadoop/etc/hadoop/*.xml ~/source

source 디렉토리를 만들고 test sorce를 저장해준다.

이후 hadoop 명령어를 수행해 실행을 확인한다

hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar grep ~/source ~/output 'principal[.]*'

결과 또한 확인한다.