메뉴 건너뛰기

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.


*문제가 있는 노드를 제거하는 경우 HDFS노드및 YARN노드를 동시에 제거해야한다.

(9대로 구성된 클러스터에서 4대(gsda5~9)를 해제하는 경우)

hdfs-site.xml에서 지정하는 dfs.hosts.exclude와 yarn-site.mxl에 지정되는 yarn.resourcemanager.nodes.exclude-path에 지정되는 노드는 slaves에 지정되는 노드와 다르게 네임노드와 리소스 매니저가 워커 노드의 접속 허용 여부를 결정할 때 사용된다. slaves파일은 클러스터 재시작과 같이 하둡의 제어 스크립트가 클러스터 전역에 걸치 작업을 수행하는데 사용된다. 하둡데몬은 slaves파일을 절대 사용하지 않는다.

 

1. nodes.include에 해제하지 않을 노드를 기록한다.(호스트명 또는 ip)
vi nodes.include
  gsda1
  gsda2
  gsda3
  gsda4

 

2. nodes.exclude에 해제할 노드를 기록한다.(호스트명 또는 ip)
vi nodes.exclude
  gsda5
  gsda6
  gsda7
  gsda8
  gsda9


3. hdfs-site.xml파일에 포함/제외할 노드 목록이 있는 파일의 경로를 추가한다

  <property>
   <name>dfs.host</name>
   <value>$HOME/hadoop/etc/hadoop/nodes.include</value>
  </property>
  <property>
   <name>dfs.hosts.exclude</name>
   <value>$HOME/hadoop/etc/hadoop/nodes.exclude</value>
  </property>

 

4. yarn-site.xml파일에 포함/제외할 노드 목록이 있는 파일의 경로를 추가한다.

   <property>
   <name>yarn.resourcemanager.nodes.include-path</name>
   <value>$HOME/hadoop/etc/hadoop/nodes.include</value>
  </property>
   <property>
   <name>yarn.resourcemanager.nodes.exclude-path</name>
   <value>$HOME/hadoop/etc/hadoop/nodes.exclude</value>
  </property>

 

4-1. 각 노드에 반영해준다.(실제는 namenode가 기동되고 있는 노드에만 복사해도됨)

scp -P 10022 yarn-site.xml root@gsda2:$HOME/hadoop/etc/hadoop

scp -P 10022 hdfs-site.xml root@gsda2:$HOME/hadoop/etc/hadoop

scp -P 10022 nodes.include root@gsda2:$HOME/hadoop/etc/hadoop

scp -P 10022 nodex.exclude root@gsda2:$HOME/hadoop/etc/hadoop

 

*참고: yarn-site.xml과 hdfs-site.xml만 각 노드에 복사하고 exclude파일은./sbin/distribute-exclude.sh를 이용하여 namenode에 복사할 수 도 있다(https://www.gooper.com/ss/index.php?mid=bigdata&category=2789&document_srl=3565)

 

 

5. 변경된 노드정보를 네임노드및 리소스매니져에 반영하기 위해서 다음을 수행한다.
  ./bin/hdfs dfsadmin -refreshNodes

  ./bin/yarn rmadmin -refreshNodes

 

6. 해제 상태 확인
  가. hdfs dfsadmin -report를 이용
    - Decommission Status : 진행중 => Decommission in progress, 완료상태 => Decommissioned
  나. gsda1:50070에 접근하여 확인한다.

 

 

7. 퇴역노드를 중단시킨다.(웹UI에 접속해서 퇴역시킬 데이터노드의 관리상태가 Decommissioned가되면 블록의 복제가 완료된 것이다.)

-bash-4.1# ./hadoop-daemon.sh stop datanode

-bash-4.1# ./yarn-daemon.sh stop nodemanager(필요시)

(nodemanager는 ./bin/yarn rmadmin -refreshNodes를 실행하면 즉시 decommission되는거 같음)

decommissioned.png

 

 

 

 

8. include파일의 내용을 지우고(#으로 주석처리 가능함) 다음 명령어를 수행한다.

  ./bin/hdfs dfsadmin -refreshNodes

  ./bin/yarn rmadmin -refreshNodes

-> Datanode Information화면에서 Dead,Decommissioned가 표시되며 Decommissioned노드가 Dead상태로 바뀌지 않으면 어느정도 대기후 반복해서 실행한다.

(datanode 데몬이 살아 있으면 Dead상태로 바뀌지 않으므로 반드시 7번작업을 통해서 datanode데몬을 죽이고 실행해야함)

decommission후dead상태의노드.png

 

 

 

 

9. slaves파일에서 해당 노드를 삭제한다. 

 

*참고 : 퇴역이 진행중에도 MR등의 작업은 정상적으로 진행됨

decommission중에wordcount실행하는모습.png

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

번호 제목 날짜 조회 수
482 Hadoop의 Datanode를 Decommission하고 나서 HBase의 regionservers파일에 해당 노드명을 지웠는데 여전히 "Dead regionser"로 표시되는 경우 처리 2018.01.25 891
481 https용 인증서 발급 명령문 예시및 오류 메세지 2018.01.24 295
480 여러 홈페이지를 운영하거나 혹은 서버에 가입한 사용자들에게 홈페이지 계정을 나누어 줄수 있도록 설정/계정 생성방법 2018.01.23 895
479 maven을 이용하여 Hello world 서비스 자동 생성시 HelloServiceImpl.java에서 사용하는 getMessage() 와 getName() 이 정의되지 않은 오류가 발생시 조치방법 2018.01.19 866
478 Lagom에서 제공하는 Maven을 이용한 Hello프로젝트 자동생성 및 실행 2018.01.19 320
477 lagom에서 제공하는 초기 생성기능을 이용하여 생성한 프로젝트의 소스 파악 2018.01.16 851
476 spark stream처리할때 두개의 client프로그램이 동일한 checkpoint로 접근할때 발생하는 오류 내용 2018.01.16 1222
475 shard3가 있는 서버에 문제가 있는 상태에서 solr query를 요청하는 경우 "no servers hosting shard: shard3" 오류가 발생하는 경우 조치사항 2018.01.04 326
474 solr 데몬이 떠있는 동안 hadoop이 다운되는 경우 Index dir 'hdfs://mycluster/user/../core_node2/data/index/' of core 'gc_shard1_replica2' is already locked라논 오류가 발생하는데 이에 대한 조치사항 2018.01.04 1114
473 [Decommission]시 시간이 많이 걸리면서(수일) Decommission이 완료되지 않는 경우 조치 2018.01.03 6559
472 [2.7.2] distribute-exclude.sh사용할때 ssh 포트변경에 따른 오류발생시 조치사항 2018.01.02 908
» hadoop cluster에 포함된 노드중에서 문제있는 decommission하는 방법및 절차 file 2017.12.28 1368
470 windows7에서 lagom의 hello world를 빌드하여 실행하는 경우의 로그(mvn lagom:runAll -Dscala.binary.version=2.11) 2017.12.22 365
469 Lagom프레임웍에서 제공하는 HelloWorld 테스트를 수행시 [unknown-version]오류가 발생하면서 빌드가 되지 않는 경우 조치사항 2017.12.22 332
468 [DBeaver 4.3.0]import/export시 "Client home is not specified for connection" 오류발생시 조치사항 2017.12.21 1172
467 전체 컨택스트 내용 file 2017.12.19 285
466 [gson]mongodb의 api를 이용하여 데이타를 가져올때 "com.google.gson.stream.MalformedJsonException: Unterminated object at line..." 오류발생시 조치사항 2017.12.11 4953
465 컴퓨터 무한 재부팅 원인및 조치방법 file 2017.12.05 308
464 권한회수 및 권한부여 명령 몇가지 2017.11.16 1109
463 db를 통째로 새로운 이름의 db로 복사하는 방법/절차 2017.11.14 1066
위로