Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.
*출처 : http://cdecl.tistory.com/307
1. 다운로드
https://github.com/karthikj1/Hadoop-2.7.1-Windows-64-binaries/releases
2. 성치
가. 다운로드 받은 파일(hadoop-2.7.1.tar.gz)을 적절한 위치(예, C:devhadoop)에 복사하고 압축을 푼다.
3. 환경변수를 설정한다.
가. HADOOP_HOME=C:devhadoophadoop-2.7.1
나. JAVA_HOME=(필요시)
다. PATH=%PATH%;C:devhadoophadoop-2.7.1bin
4. Hadoop 설정
가. %HADOOP_HOME%etchadoopcore-site.xml
- Hadoop 인터페이스 서비스 URI 설정
- 외부로 서비스 노출 하고 싶다면 hdfs://0.0.0.0:9000 으로 세팅
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
나. %HADOOP_HOME%etchadoophdfs-site.xml
- dfs.replication 블록 복제, 파일 복제 개수를 지정
- namenode 와 datanode 의 경로를 지정 (옵션), 지정하지 않으면 /tmp 밑에 생성함
- file:/ 이 경로는 현재 드라이브 루트를 의미 (c: or d:)
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hadoop/data/dfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hadoop/data/dfs/datanode</value>
</property>
</configuration>
다. %HADOOP_HOME%etchadoopyarn-site.xml
- yarn 설정 및 hadoop 어플리케이션 classpath 설정
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.application.classpath</name>
<value>
%HADOOP_HOME%etchadoop,
%HADOOP_HOME%sharehadoopcommon*,
%HADOOP_HOME%sharehadoopcommonlib*,
%HADOOP_HOME%sharehadoopmapreduce*,
%HADOOP_HOME%sharehadoopmapreducelib*,
%HADOOP_HOME%sharehadoophdfs*,
%HADOOP_HOME%sharehadoophdfslib*,
%HADOOP_HOME%sharehadoopyarn*,
%HADOOP_HOME%sharehadoopyarnlib*
</value>
</property>
</configuration>
라. %HADOOP_HOME%etchadoopmapred-site.xml
- 맵리듀스 런타임 프레임웍 설정
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
5. Namenode를 format한다.
%HADOOP_HOME%binhdfs namenode -format
6. HDFS, YARN 데몬 실행
%HADOOP_HOME%sbinstart-dfs
%HADOOP_HOME%sbinstart-yarn
--> console창이 각각 2개씩 총 4개가 실행되면서 각각의 서비스 시작됨
7. 서비스 확인
- http://localhost:8042 - Resource Manager and Node Manager :
- http://localhost:50070 - Namenode
* http://localhost:9000 - Service URI
8. test
가. hdfs dfs -mkdir -p /user/gooper/data
나. hdfs dfs -ls /
다. hdfs dfs -put c:tmpdata* /user/gooper/data
라. hdfs dfs -ls /user/gooper/data